


中 国 计 算 机 学 会 学 术 著作 丛书 


eas J 
从 公理 到 算法 


E 


T$ x 


清华 大 学 出 版 社 





中 国 计 算 机 学 会 学 术 著作 从 书 
Plane -J 
从 公理 到 算法 


于 剑 著 


清华 大 学 出 版 社 


北京 


HB Em 

这 是 一 本 基于 公理 研究 学 习 算 法 的 书 。 共 17 章 ， 由 两 部 分 组 成 。 第 一 部 分 是 机 器 学 习 公 理 
以 及 部 分 理论 演绎 ， 包 括 第 1、2、6、8 章 ， 论 述 学 习 公理 以 及 相应 的 聚 类 、 分 类 理论 。 第 二 
部 分 关注 如 何 从 公理 推出 经 典 学 习 算 法 ， 包 括 单 类 、 多 类 和 多 源 问题 。 第 3 一 5 章 为 单 类 问题 ， 
分 别论 述 密度 估计 、 回 归 和 单 类 数据 降 维 。 第 7、9 一 16 章 为 多 类 问题 ， 包 括 聚 类 、 神 经 网 络 、 
K 近邻 、 支 持 向 量 机 、Logistic 回归 、 贝 叶 斯 分 类 、 决 策 树 、 多 类 降 维 与 升 维 等 经 典 算法 。 最 
后 第 17 章 研 究 了 多 源 数据 学 习 问 题 。 
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北大 读 博之 时 ， 蒙 先 师 指 点 ,研究 归 类 之 术 。 其 理 繁复 ， 致 子 目 眩 五 色 , 心力 
交 阅 。 然 应 门 之 童 可 辨识 诸 物 ， 沁 懂 是 理 哉 ? 

BERRA A, 遍 求 诸 经 。 尝 读 维特 根 斯 坦 之 哲学 研究 , 知 相似 性 为 归 类 之 要 , 然 
血 指 汗 颜 , 不 得 要 领 。 RATE, 访 友 寻 师 。 一 日 顿悟 , Fl: 归 哪 类 , 像 哪 类 。 像 哪 
K, 归 哪 类 。 此 即 孔子 所 谓 “ 君 君臣 臣 父 父子 子 ”之 意 也 。 周易 所 谓 “ 水 流 湿 , 火 
BUR, 云 从 龙 , 风 从 虎 ” 之 意 也 。 


如 不 然 , 归 哪 类 , 不 像 哪 类 ; 像 哪 类 , 不 归 哪 类 。 所 谓 君 不 君 , 臣 不 臣 ， 父 不 
父 , FAT. 长此以往 , 名 不 正 , 言 不 顺 , 雌雄 莫 辨 , 黑白 难 分 , 不 亦庄 乎 ! 
是 为 序 。 
于 剑 


jianyu@bjtu.edu.cn 
2014 年 5 月 
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机 器 学 习 的 主要 目的 是 从 有 限 的 数据 中 学 习 到 知识 ,而 知识 的 基本 单元 是 概 
念 。 借 助 于 概念 ， 人 类 可 以 在 繁复 的 思想 与 多 彩 的 世界 之 间 建 立 起 映射 ， 指 认 各 
种 对 象 ， 发 现 各 种 规律 ,表达 各 种 想法 , 交流 各 种 观念 。 一 旦 缺失 相应 的 概念 , 人 
们 将 无 法 思考 、 交 流 ， 甚 至 无 法 顺利 地 生活 、 学 习 、 工 作 、 医 疗 、 娱 乐 等 。 哲 学 家 
如 卡 西 尔 等 甚至 认为 人 类 的 本 质 特性 是 能 够 使 用 和 创造 各 种 符号 概念 。 因此 ， 如 
何 使 机 器 能 够 像 人 一 样 自动 发 现 、 运 用 概念 , 正 是 机 器 学 习 的 基本 研究 内 容 。 本 
书 将 集中 讨论 这 个 问题 。 

所 谓 的 概念 发 现 ， 是 指 从 一 个 给 定 概念 (或 者 概念 集合 ) 的 有 限 外 延 子 集 提 
取 对 应 的 概念 (或 者 概念 集合 ) 表示 , 又 称 归 类 问题 。 通过 自然 进化 ， 人 类 可 以 从 
一 个 概念 (或 概念 集合 ) 的 有 限 外 延 子 集 (有 限 的 对 象 ) 中 轻松 提取 概念 (或 概念 
集合 ) 自身 。 对 于 人 类 如 何 处 理 归 类 问题 , 人 们 已 经 研究 了 很 多 年 , 发 明了 许多 理 
ie, 比如 经 典 概念 理论 、 原 型 理论 、 样 例 理论 和 知识 理论 等 , 积累 了 很 多 的 研究 
果 。 本 书 借助 认 知 科学 的 研究 成 果 , 提出 了 类 的 统一 表示 数学 模型 ， 以 及 与 之 相 
关 的 归 类 问题 的 统一 数学 表示 。 由 此 提出 了 类 表示 公理 、 归 类 公理 和 分 类 测试 公 
理 。 据 此 , 本 书 分 别 研究 了 归 类 结果 分 类 、 归 类 算法 分 类 等 诸多 问题 。 特别 需要 提 
出 的 是 , 本 书 首次 归纳 了 归 类 算法 设计 应 该 遵循 的 4 条 准则 一 一 类 一 致 性 准则 、 
类 紧 致 性 准则 、 类 分 离 性 准则 和 奥 卡 姆 剃刀 准则 。 在 理论 上 , 任何 机 器 学 习 算法 
的 目标 函数 设计 都 遵循 上 述 4 条 准则 的 1 条 或 者 数 条 。 

对 于 有 具体 的 机 器 学 习 问 题 , 本 书 依据 奥 卡 姆 剃刀 准则 , 按照 归 类 表示 从 简单 
到 复杂 的 顺序 , 重新 进行 了 组 织 。 本 书 不 仅 论述 了 单 类 问题 比 多 类 问题 的 归 类 表 
示 简 单 ， 聚 类 问题 比分 类 问题 的 归 类 表示 简单 ， 单 源 数据 学 习 比 多 源 数据 学 习 的 
归 类 表示 简单 ， 而 且 对 于 单 类 问题 、 多 类 问题 自身 的 归 类 表示 复杂 度 也 进行 了 研 
究 。 在 此 基础 上 , 指出 单 类 问题 包括 密度 估计 、 回 归 和 单 类 数据 降 维 等 , 并 借助 提 
出 的 公理 框架 以 统一 的 方式 演绎 推出 了 在 密度 估计 、 回 归 、 数 据 降 维 、 聚 类 和 分 
类 等 问题 中 常用 的 机 器 学 习 算法 。 

本 书 中 章节 的 组 织 结构 都 是 类 似 的 , 特别 是 与 具体 学 习 算 法 有 关 的 章节 。 每 
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章 有 一 个 简短 的 开篇 词 。 如 果 该 章 是 学 习 算法 章节 ， 该 开篇 词 用 来 简要 说 明 本 章 
算法 的 主要 设计 思想 。 如 果 该 章 是 理论 章节 ， 该 开篇 词 说 明 该 理论 问题 的 主要 目 
标 。 每 章 结尾 有 延伸 阅读 或 者 讨论 ， 延 伸 阅 读 提 供 更 深入 的 相关 阅读 文献 , 讨论 
说 明 本 章 的 相关 内 容 与 分 析 或 者 尚未 解决 的 问题 。 

作者 讲授 机 器 学 习 已 十 数 年 , 有 感 于 当前 的 机 器 学 习 算 法 理论 依据 过 多 过 
杂 ,， 同 时 也 一 直 鲜 幕 欧 氏 几何 从 五 条 公理 出 发 导出 所 有 结论 的 风格 。 扎 写本 书 ， 
既是 将 欧 氏 几何 风格 移植 到 机 器 学 习 的 一 个 尝试 , 更 是 试图 为 机 器 学 习 与 模式 识 
别提 供 一 个 统一 但 又 简单 的 理论 视角 。 总 之 , 机 器 学 习 公 理化 这 个 问题 在 本 书 中 
提出 , 也 在 本 书 中 解决 了 。 


于 剑 
2017 年 3 月 
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好 好 学 习 ， 天 天 向 上 。 
一 一 毛泽东，1951 年 题词 


大 数据 时 代 ， 人 类 收集 、 存储 、 传 输 、 管理 数据 的 能 力 日 益 提高 , 各 行 各 业已 
经 积累 了 大 量 的 数据 资源 , 如 著名 的 Nature 杂志 于 2008 年 9 月 出 版 了 一 期 大 数 
据 专 刊 吓 , 列举 了 生物 信息 、 交 通 运输 、 金融、 互联 网 等 领域 的 大 数据 应 用 。 如 何 
有 效 分 析 数 据 并 得 到 有 用 信息 甚至 知识 成 为 人 们 关注 的 焦点 。 人 们 寄 希 望 于 智能 
数据 分 析 来 完成 该 项 任务 。 机 器 学 习 是 智能 数据 分 析 技 术 的 核心 理论 。Science AX 
a T 2015 年 7 月 组 织 了 一 个 人 工 智 能 专题 四, 其 中 有 关机 器 学 习 的 内 容 依 然 占 
据 了 重要 的 部 分 。 本 章 将 讨论 机 器 学 习 的 基本 目的 、 基 本 框架 、 思 想 发 展 以 及 未 
来 走向 。 


1.1 “机 器 学 习 的 目的 : 从 数据 到 知识 


人 类 最 重要 的 一 项 能 力 是 能 够 从 过 去 的 经 验 中 学 习 , 并 形成 知识 。 千 百年 来 ， 
人 类 不 断 从 学 习 中 积累 知识 , 为 人 类 文明 打下 了 坚实 的 基础 。“ 学 习 ” 是 人 与 生 俱 
来 的 基本 能 力 , 是 人 类 智能 (human intelligence) 形成 的 必要 条 件 。 自 2000 年 以 
来 ， 随 着 互联 网 技术 的 普及 ,积累 的 数据 已 经 超过 了 人 类 个 体 处 理 的 极限 ， 以 往 
人 类 自己 亲自 处 理 数据 形成 知识 的 模式 已 经 到 了 必须 改变 的 地 步 ， 人 类 必须 借助 
于 计算 机 才能 处 理 大 数据 ,更 直 白 地 说 , 我们 希望 计算 机 可 以 像 人 一 样 从 数据 中 
学 到 知识 。 

由 此 ,如何 利用 计算 机 从 大 数据 中 学 到 知识 成 为 人 工 智能 研究 的 热点 “机 
器 学 习 ”(machine learning) 是 从 数据 中 提取 知识 的 关键 技术 。 其 初衷 是 让 计算 机 
具备 与 人 类 相似 的 学 习 能 力 。 迄 今 为 止 , 人 们 尚 不 知道 如 何 使 计算 机 有 具有 与 人 类 
相 媲 美的 学 习 能 力 。 然 而 , 每 年 都 有 大 量 新 的 针对 特定 任务 的 机 器 学 习 算 法 涌现 ， 
帮助 人 们 发 现 完成 这 些 特定 任务 的 新 知识 (有 时 也 许 仅仅 是 隐 性 新 知识 )。 对 机 器 
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学 习 的 研究 不 仅 已 经 为 人 们 提供 了 许多 前 所 未 有 的 应 用 服务 (如 信息 搜索 、 机 器 
翻译 、 语音 识别 、 无 人 驾驶 等 ), 改善 了 人 们 的 生活 , 而 且 也 帮助 人 们 开辟 了 许多 
新 的 学 科 领 域 , 如 计算 金融 学 、 计算 广告 学 、 计算 生物 学 、 计 算 社会 学 、 计算 历史 
学 等 , 为 人 类 理解 这 个 世界 提供 了 新 的 工具 和 视角 。 可 以 想见 , 作为 从 数据 中 提取 
知识 的 工具 , 机 器 学 习 在 未 来 还 会 帮助 人 们 进一步 开拓 新 的 应 用 和 新 的 学 科 。 

机 器 学 习 存 在 很 多 不 同 的 定义 , 常用 的 有 三 个 。 第 一 个 常用 的 机 器 学 习 定义 
是 “计算 机 系统 能 够 利用 经 验 提 高 自身 的 性 能 ”， 更 加 形式 化 的 论述 可 见 文 献 [3]。 
机 器 学 习 名 著 《 统 计 学 习 理论 的 本 质 》 给 出 了 机 器 学 习 的 第 二 个 常见 定义 ,“ 学 习 
就 是 一 个 基于 经 验 数 据 的 函数 估计 问题 ”外 。 在 《统计 学 习 基 础 》 这 本 书 的 序言 里 
给 出 了 第 三 个 常见 的 机 器 学 习 定 义 , “提取 重要 模式 、 趋 势 ， 并 理解 数据 即 从 数 
据 中 学 习 ” 0。 这 三 个 常见 定义 各 有 侧重 : 第 一 个 聚焦 学 习 效果 , 第 二 个 的 亮点 
是 给 出 了 可 操作 的 学 习 定义 , 第 三 个 突出 了 学 习 的 可 理解 性 。 但 其 共同 点 是 强调 
了 经 验 或 者 数据 的 重要 性 ， 即 学 习 需 要 经 验 或 者 数据 。 注意 到 提高 自身 性 能 需要 
知识 , 函数、 模式 、 趋 势 显然 自身 是 知识 , 因此 , 这 三 个 常见 的 定义 也 都 强调 了 从 
经 验 中 提取 知识 , 这 意味 着 这 三 种 定义 都 认可 机 器 学 习 提 供 了 从 数据 中 提取 知识 
的 方法 。 如 何 给 出 一 个 更 加 精确 的 机 器 学 习 定义 呢 ? 这 个 问题 将 在 第 2 章 进 行 讨 
论 。 幸运 的 是 , 虽然 机 器 学 习 缺 乏 统一 定义 , 但 如 何 构建 一 个 机 器 学 习 任 务 的 基 
本 框架 还 是 有 共识 的 。 

那么 如 何 构 建 一 个 机 器 学 习 任 务 的 基本 框架 呢 ? 

















1.2 ”机 器 学 习 的 基本 框架 


考虑 到 我 们 希望 用 机 器 学 习 来 代替 人 学 习 知识 , 因此 , 在 研究 机 器 学 习 以 前 ， 
先 回顾 一 下 人 类 如 何 学 习 知 识 是 有 益 的 。 对 于 人 来 说 ， 要 完成 一 个 具体 的 学 习 任 
务 , 需要 学 习 材 料 、 学 习 方 法 以 及 学 习 效果 评估 方法 。 如 学 习 英 语 , 需要 英语 课 
本 、 英 语 伺 带 或 者 录音 等 学 习 材料 ， 明 确 学 习 方法 是 背诵 和 练习 ,告知 学 习 效果 
评估 方法 是 英语 评测 考试 。 检测 一 个 人 英语 学 得 好 不 好 , 就 看 其 利用 学 习 方 法 从 
学 习 材 料 得 到 的 英语 知识 是 否 能 通过 评测 考试 。 机 器 学 习 要 完成 一 个 学 习 任 务 ， 
也 需要 解决 这 三 方面 的 问题 , 并 通过 预定 的 测试 。 

对 应 于 人 类 使 用 的 学 习 材 料 ， 机 器 学 习 完 成 一 个 学 习 任务 需要 的 学 习 材 料 ， 
一 般 用 描述 对 象 的 数据 集合 来 表示 ,有 时 也 用 经 验 来 表示 。 对 应 于 人 类 完成 学 习 
任务 的 学 习 方 法 , 机 器 学 习 完 成 一 个 学 习 任务 需要 的 学 习 方法 , 一 般 用 学 习 算法 
来 表示 。 对 应 于 人 类 完成 一 个 学 习 任 务 的 学 习 效 果 现 场 评估 方法 (如 老师 需要 时 
时 观察 课堂 气氛 和 学 生 的 注意 力 情况 ), 机 器 学 习 完 成 一 个 学 习 任 务 也 需要 对 学 
习 效 果 进行 即时 评估 , 一 般 用 学 习 判 据 来 表示 。 对 于 机 器 学 习 来 说 , 用 来 描述 数 
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据 对 象 的 数据 集合 对 最 终 学 习 任务 的 完成 状况 有 重要 影响 , 用 来 指导 学 习 算法 设 
计 的 学 习 判 据 有 时 也 用 来 评估 学 习 算 法 的 效果 , 但 一 般 机 器 学 习 算法 性 能 的 标准 
评估 会 不 同 于 学 习 判 据 , 正如 人 学 习 的 学 习 效 果 即 时 评估 方式 与 最 终 的 评估 方式 
一 般 也 不 同 。 对 于 机 器 学 习 来 说 , 通常 也 会 有 特定 的 测试 指标 , 如 正确 率 , 学 习 速 
度 等 。 

可 以 用 一 个 具体 的 机 器 学 习 任务 来 说 明 。 给 定 一 个 手写 体 数字 字符 数据 集 
合 ,希望 机 器 能 够 通过 这 些 给 定 的 手写 体 数字 字符 , 学 到 正确 识别 手写 数字 字符 
的 知识 。 显然 , 学 习 材料 是 手写 体 数字 字符 数据 集 , 学 习 算法 是 字符 识别 算法 , 学 
习 判 据 可 以 是 识别 正确 率 , 也 可 以 是 其 他 有 助 于 提高 识别 正确 率 的 指标 。 

数据 集合 、 学 习 判 据 、 学 习 算法 对 于 任何 学 习 任务 都 是 需要 讨论 的 对 象 。 数 
据 集合 的 不 同 表示 ,影响 学 习 判 据 与 学 习 算 法 的 设计 。 学 习 判 据 与 学 习 算 法 的 设 
计 密 切 相关 ， 下 面 分 别 讨论 。 














1.2.1 ”数据 集合 与 对 象 特性 表示 


对 于 一 个 学 习 任 务 来 说 , 我 们 希望 学 到 特定 对 象 集合 的 特定 知识 。 无论 何 种 
学 习 任 务 , 学 到 的 知识 通常 是 与 这 个 世界 上 的 对 象 相关 。 通过 学 到 的 知识 ,可 以 
对 这 个 世界 上 的 对 象 有 更 好 的 描述 ， 甚 至 可 以 预测 其 具有 某 种 性 质 、 关 系 或 者 行 
为 。 为 此 , 学 习 算 法 需要 这 些 对 象 的 特性 信息 , 这 些 信息 可 以 客观 观测 ， 即 关于 特 
定 对 象 的 特性 信息 集合 ， 该 集合 一 般 称 为 对 象 特 性 表示 ， 是 学 习 任 务 作 为 学 习 材 
料 的 数据 集合 的 组 成 部 分 。 理 论 上 , 用 来 描述 对 象 的 数据 集合 的 表示 包括 对 象 特 
性 输入 表示 、 对象 特性 输出 表示 。 

显然 , 对 象 特性 输入 表示 是 我 们 能 够 得 到 的 对 象 的 观测 描述 , 对 象 特 性 输出 
表示 是 我 们 学 习 得 到 的 对 象 的 特性 描述 。 需 要 指出 的 是 , 对 象 的 特性 输入 表示 或 
者 说 对 象 的 输入 特征 一 定 要 与 学 习 任 务 相 关 。 根 据 丑 小 鸭 定 理 (Ugly Duckling 
Theorem) 句 ， 不 存在 独立 于 问题 而 普遍 适用 的 特征 表示 , 特征 的 有 效 与 和 否 是 问 
题 依 赖 的 。 丑 小 鸭 定 理 是 由 Satosi Watanabe 于 1969 年 提出 的 ， 其 内 容 可 表述 
为 “如 果 选 定 的 特征 不 合理 , 那么 世界 上 所 有 事物 之 间 的 相似 程度 都 一 样 , 丑 小 
聘 与 白天 鹅 之 间 的 区 别 和 两 只 白天 鹅 之 间 的 区 别 一 样 大 ”。 该 定理 表明 在 没有 给 
定 任何 假设 的 情况 下 , 不 存在 普 适 的 特征 表示 ; 相似 性 的 度量 是 特征 依赖 的 ,是 
主观 的 、 有 偏 置 的 , 不 存在 客观 的 相似 性 度量 标准 。 因 此, 对 于 任何 机 器 学 习 任 务 
来 说 , 得 到 与 学 习 任 务 匹配 的 特征 表示 是 学 习 任务 成 功 的 首要 条 件 。 对 于 机 器 学 
习 来 说 , 一 般 假设 对 象 特 征 已 经 给 定 , 特别 是 对 象 特性 输入 表示 。 

对 于 对 象 特性 输入 表示 , 通常 有 三 种 表示 方式 。 一 种 是 向 量 表示 ,对 于 每 个 
对 象 , 可 以 相对 独立 地 观察 其 特有 的 一 些 特征 。 这 些 特征 组 成 该 对 象 的 一 个 描述 ， 
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并 代表 该 对 象 。 第 二 种 表示 是 网 络 表示 ,对 于 每 个 对 象 ， 由 其 与 其 他 对 象 的 关系 
来 描述 , 简单 说 来 , 观察 得 到 的 是 对 象 之 间 的 彼此 关系 。 第 三 种 是 混合 表示 , 对 于 
每 个 对 象 , 其 向 量 表示 和 网 络 表 示 同 时 存在 。 

不 论 对 于 人 还 是 机 器 ,能够 提供 学 习 或 者 训练 的 对 象 总 是 有 限 的。 不 妨 假设 
有 N 个 对 象 , 对 象 集合 为 O = (01,03, ,oN}, 其 中 ok RRB k PHB. 其 对 应 
的 对 象 特性 输入 表示 用 x= {Zz1, T2,- NT ,TN} 来 表示 ， 其 中 Tk 表示 对 象 Ok 的 特 
性 输入 表示 。 当 每 个 对 象 有 向 量 表示 时 , zk 可 以 表示 为 zk = [zik,zok…… ,Zpk] Te 
因此 , 对 象 特性 输入 表示 X. 可 以 用 矩阵 [err] pn KER, 其 中 p 表示 对 象 输入 特 
征 的 维 数 ，zz 表示 on 的 第 zt 个 输入 特征 值 ， 这 些 特 征 值 可 以 是 名 词性 属性 值 ， 
也 可 以 是 连续 性 属性 值 。 

如 果 对 象 特性 输入 表示 X 存在 网 络 表 示 , BU X AHERE [Sa] 来 表 
AR, 其 中 Ri 表示 对 象 ok 与 对 象 o 的 网 络 关 系 。 如 果 是 相似 性 关系 , 则 对 象 特性 
输入 表示 X 为 相似 性 珑 阵 S(X) = [snJnxn， 其 中 sa 表示 对 象 ok GMA oy 的 
相似 性 。 通 常 ，sAt 越 大 表明 对 象 ok 与 对 象 o 的 相似 性 越 大 。 因 此 ,， 对象 of 可 以 
由 行 向 量 [skl, ska,…… ,skN] 表示 。 如 果 是 相 异 性 关系 , 则 对 象 特性 输入 表示 为 
相 异 性 矩阵 D(X) = [Di] v» FP. Di 表示 对 象 ok 与 对 象 o1 的 相 异 性 。 类似 
Hs Dia 越 大 表明 对 象 ok 与 对 象 o 的 相 异 性 越 大 。 因 此 ,对象 ok 可 以 由 行 向 量 
[Dr Dio, 7, Di] 表示 。 如 果 是 相 邻 关系 , 对 象 特性 输入 表示 X 为 邻接 性 矩阵 
A(X) = [oilwxw， 其 中 ak 表示 对 象 o 与 对 象 o, 是否 相 邻 , 通常 其 取 值 为 0 或 
Fi 1. 

对 应 的 对 象 特 性 输出 表示 用 了 = {yy ,yn} 来 表示 ,其 中 yy 表示 对 象 
ox 的 特性 输出 表示 。 具体 的 表示 形式 由 学 习 算 法 决定 , 通常 是 对 象 特性 输出 表示 
Y 可 以 用 和 矩阵 [yk]axw 来 表示 ,其 中 d 表示 对 象 输出 特征 的 维 数 , yi 表示 op 的 
第 7 个 输出 特征 值 , 这 些 特征 值 通常 是 连续 性 属性 值 。 

显然 , 除去 对 象 特性 输入 、 输 出 表示 , 数据 集合 还 有 其 他 部 分 , 这 些 部 分 的 表 
示 与 知识 表示 有 关 , 通常 依赖 于 知识 表示 。 知 识 表示 不 同 ,学习 算法 的 数据 集合 
输入 输出 表示 也 会 不 同 。 一 个 容易 想到 的 公开 问题 是 ,适合 于 机 器 学 习 的 统一 知 
识 表 示 是 否 存在 ? 如 果 存 在 , 是 何 形式 ? 现今 的 机 器 学 习 方法 一 般 是 针对 具体 的 
学 习 任 务 , 设 定 具体 的 知识 表示 。 因 此 ， 本 章 先 不 讨论 学 习 算 法 的 输入 输出 统一 
表示 , 这 个 问题 留待 第 2 章 讨论 。 











1.2.2 FSFE 


完成 一 个 学 习 任务 , 需要 一 个 判 据 作为 选择 学 习 到 的 知识 好 坏 的 评价 标准 。 
理论 上 , 符合 一 个 学 习 任务 的 具体 化 知识 可 以 有 很 多 。 通常 如 何 从 中 选 出 最 好 
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的 具体 化 知识 表示 是 一 个 NP 难 问题 。 因此 , 需要 限定 符合 一 个 特定 学 习 任 务 的 
具体 化 知识 范围 , 适当 减 小 知识 假设 空间 的 大 小 , 减少 学 习 算 法 的 搜索 空间 。 为 
了 从 限定 的 假设 空间 选择 最 优 的 知识 表示 , 需要 根据 不 同 的 学 习 要 求 来 设 定 学 习 
判 据 对 搜索 空间 各 个 元 素 的 不 同 分 值 。 判 据 设 定 的 准则 有 很 多 , 理论 上 与 学 习 任 
务 相 关 ， 本 书 将 在 以 后 的 章节 中 进行 讨论 。 需要 指出 的 是 ， 有 时 学 习 判 据 也 被 称 
为 目标 函数 。 在 本 书 中 , 对 于 这 两 个 术语 不 再 特意 区 别 。 








1.2.3 ”学 习 算 法 


在 学 习 判 据 给 出 了 从 知识 表示 空间 搜索 最 优 知识 表示 的 打分 函数 之 后 ， 还 需 
要 设计 好 的 优化 方法 ,以 便 找 出 对 应 于 打分 函数 达到 最 优 的 知识 表示 。 此 时 , 机 
器 学 习 问题 通常 归结 为 一 个 最 优化 问题 。 选择 最 优化 方法 对 有 效 完成 学 习 任 务 很 
关键 。 目 前 ， 最 优化 理论 在 机 器 学 习 问 题 中 已 经 变 得 越 来 越 重要 。 典 型 的 最 优化 
算法 有 梯度 下 降 算法 、 共 思 梯 度 算 法 、 伪 牛顿 算法 、 线 性 规划 算法 、 演化 算法 、 群 
体 智能 等 。 如何 选 择 合适 的 优化 技术 , 得 到 快速 、 准 确 的 解 是 很 多 机 器 学 习 问 题 
的 难点 所 在 。 这 就 要 求 工程 技术 和 数学 理论 相 结 合 ， 以 便 很 好 地 解决 优化 问题 。 
一 般 建议 初学 者 先 采 用 已 有 的 最 优化 算法 , 之 后 再 设计 专门 的 优化 算法 。 

是 否 有 不 依赖 于 具体 问题 的 最 优 学 习 算 法 呢 ? 如 果 有 的 话 ， 只 需 学 一 种 算法 
就 可 以 包 打 天 下 了 。 可 惜 的 是 , 结论 是 否 。 著 名 的 没有 免费 午餐 定理 已 经 明确 指 
出 : 不 存在 对 于 所 有 学 习 问 题 都 适用 的 学 习 算法 79. 


1.3 ”机 器 学 习 思想 简 论 


机 器 学 习作 为 一 个 单独 的 研究 方向 ， 应 该 说 是 在 20 世纪 80 年 代 第 一 届 
ICML 召开 之 后 才 有 的 事情 。 但 是 , 广义 上 来 说 , 机 器 学 习 任务 , 或 者 学 习 任 务 ， 
一 有 人 类 就 出 现 了 。 在 日 常生 活 中 ， 人们 每 天 都 面临 如 何 从 自己 采集 的 数据 中 提 
取 知识 进行 使 用 的 问题 。 比 如 ， 大 的 方面 , 需要 观察 环境 的 变化 来 学 习 如 何 制定 
政策 使 得 我 们 这 个 地 球 可 持续 发 展 ; 小 的 方面 , 需要 根据 生活 的 经 验 买 到 一 个 可 
口 的 柚子 或 者 西瓜 ,选择 一 个 靠 谱 的 理发 师 ， 等 等 。 在 计算 机 出 现 以 前 , 数据 采 
集 都 是 人 直接 感知 或 者 操作 ,采集 到 的 数据 量 较 小 人 可 以 直接 从 数据 中 提取 
知识 ,并 不 需要 机 器 学 习 。 如 对 于 回归 问题 , 高 斯 在 19 世纪 早期 (1809) 就 发 表 
了 最 小 二 乘法 ; 对 于 数据 降 维 问题 ,卡尔 "皮尔 逊 在 1901 年 就 发 明了 主 成 分 分 
Wr (PCA); 对 于 聚 类 问题 K-means 算法 最 早 也 可 追溯 到 1953 4E P1, 但是, 这 些 
算法 和 问题 被 归 入 机 器 学 习 ,， 也 只 有 在 机 器 收集 数据 能 力 越 来 越 成 熟 导致 人 类 直 
接 从 数据 中 提取 知识 成 为 不 可 能 之 后 才 变 得 没有 异议 。 
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在 过 去 的 30 年 间 , 机 器 学 习 从 处 理 仅 包含 上 百 个 样本 数据 的 玩具 问题 (toy- 
problem) 起 步 , 发 展 到 今天 , 已 经 成 为 从 科学 研究 到 商业 应 用 的 标准 数据 分 析 工 


机 器 学 习 最 早 的 目标 是 从 数据 中 发 现 可 以 解释 的 知识 , 在 追求 算法 性 能 的 同 
时 ,强调 算法 的 解释 性 。 早期 的 线性 感知 机 、 决 策 树 和 最 近邻 等 算法 可 以 说 是 这 
方面 的 典型 代表 作 。 但 是 ，1969 4E, Minsky 指出 线性 感知 机 算法 不 能 解决 异 或 问 
题 890。 由 于 现实 世界 的 问题 大 多 是 非 线性 问题 ， 而 异 或 问题 可 以 说 是 最 简单 的 非 
线性 问题 , 由 此 可 以 推断 线性 感知 机 算法 用 处 不 多 。 这 对 于 以 线性 感知 机 算法 为 
代表 的 神经 网 络 研 究 可 以 说 是 致命 一 击 , 直接 导致 了 神经 网 络 甚 至 人 工 智能 的 第 
一 个 冬天 。 感 知 机 算法 的 发 明 人 、 神 经 网 络 先驱 Rosenblatt 于 1971 年 因 故 去 世 ， 
更 加 增添 了 这 个 冬天 的 寒意 。 

需要 指出 的 是 , 很 多 实际 应 用 并 不 要 求 算法 具有 可 解释 性 。 比 如 机 器 翻译 、 
天 气 预报 、 卜 卦 算命 等 。 在 这 种 需求 下 ， 如 果 一 个 算法 的 泛 化 性 能 能 够 超过 其 他 
同类 算法 , 即使 该 算法 缺少 解释 性 , 则 该 算法 依然 是 优秀 的 学 习 算法 。20 世纪 80 
年 代 神 经 网 络 的 复苏 , 其 基本 思路 即 为 放弃 解释 性 , 一 心 提高 算法 的 泛 化 性 能 。 
神经 网 络 放 弃 解 释 性 的 最 重要 标志 是 其 激活 函数 不 再 使 用 线性 函数 , 而 是 典型 的 
非 线 性 函数 如 Sigmoid 函数 和 双 曲 函数 等 ,其 优点 是 其 表示 能 力 大 幅 提 高 ,相应 
的 复杂 性 也 极度 增长 。 众 所 周知 , 解释 性 能 好 的 学 习 算法 ,其 泛 化 性 能 也 要 满足 
实际 需求 。 如 果 其 泛 化 性 能 不 佳 , 即使 解释 性 好 ， 人们 也 不 会 选用 。 在 20 世纪 80 
年 代 , 三 层 神 经 网 络 的 性 能 超过 了 当时 的 分 类 算法 如 决策 树 、 最 近邻 等 , 虽然 其 
解释 性 不 佳 , 神经 网 络 依然 成 为 当时 最 流行 的 机 器 学 习 模型 。 在 神经 网 络 放弃 解 
释 性 之 后 ,其 对 于 算法 设计 者 的 知识 储备 要 求 也 降 到 了 最 低 , 因此 , 神经 网 络 在 
20 世纪 80 年 代 吸引 了 大 批 的 研究 者 。 
当然 , 也 有 很 多 实际 应 用 要 求 算法 具有 可 解释 性 ， 如 因果 关系 发 现 、 控 制 等 。 
应 该 说 , 同时 追求 解释 性 和 泛 化 性 能 一 直 是 非 神经 网 络 机 器 学 习 研 究 者 设计 学 
习 算 法 的 基本 约束 。 一旦 一 个 算法 既 具 有 很 好 的 解释 性 ， 其 性 能 又 超过 神经 网 
络 , 神经 网 络 研究 就 将 面临 极 大 的 困境 。 这样 的 事情 在 历史 上 也 曾 真实 地 发 生 
过 。1995 年 Vapnik 提出 了 支持 向 量 机 分 类 算法 , 该 算法 解释 性 好 ,其 分 类 性 能 也 
超过 了 当时 常见 的 三 层 神 经 网 络 , 尤其 需要 指出 的 是 , 其 理论 的 分 类 错误 率 可 以 
通过 Valiant 的 PAC 理论 来 估计 。 这 导致 了 神经 网 络 研 究 的 十 年 沉寂 ,有 人 也 将 
其 称 为 人 工 智 能 的 第 二 个 冬天 。 在 这 期 间 , 大 批 原 先 的 神经 网 络 研 究 者 纷纷 选择 
离开 ， 只 有 少数 人 坚持 研究 神经 网 络 。 这 个 时 间 段 对 于 机 器 学 习 来 说 ， 显 然 不 是 
冬季 。 在 这 十 年 间 ， 人 们 提出 了 概率 图 理论 、 核 方法 、 流 形 学 习 、 稀 疏 学 习 、 排 序 
学 习 等 多 种 机 器 学 习 新 方向 。 特 别 是 在 20 世纪 未 和 21 世纪 初 , 由 于 在 搜索 引擎 、 
字符 识别 等 应 用 领域 取得 的 巨大 进展 ,机 器 学 习 的 影响 力 日 益 兴 旺 。 其 标志 事件 
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有 : 1997 年 Tom Mitchell 机 器 学 习 经 典 教科 书 的 出 现 回 ,2010 年 和 2011 年 连续 
两 年 图 灵 奖 颁发 给 了 机 器 学 习 的 研究 者 Valiant 和 Pearl。 

三 十 年 河东 , 三 十 年 河西 。2006 年 以 后 , 神经 网 络 突破 了 三 层 网 络 结构 限制 ， 
大 幅 提 高 了 模型 的 表示 能 力 , 又 逢 大 数据 时 代 相 伴 而 生 的 高 计算 能 力 , 神经 网 络 
化 身 深度 学 习 , 再 次 将 分 类 能 力 提高 到 同时 代 其 他 模型 无 法 匹敌 的 程度 , 有 人 将 
其 称 为 人 工 智能 的 第 三 个 春天 。 在 机 器 学 习 的 许多 应 用 领域 , 深度 学 习 甚 至 成 为 
机 器 学 习 的 代名词 。 虽然 如 此 , 时 至 今日 , 深度 学 习 只 是 机 器 学 习 的 一 个 分 支 , 无 
论 其 沉寂 或 者 过 热 ， 都 不 能 逆转 而 只 能 加 速 全 部 机 器 学 习 本 身 应 用 越 来 越 普 及 、 
理论 越 来 越 深 入 的 发 展 趋势 。 

A, 机 器 学 习 算 法 每 天 被 用 来 帮助 解决 不 同学 科 不 同 商业 应 用 的 各 种 实际 
数据 分 析 问 题 ， 相关 的 研究 者 每 年 也 会 针对 相同 或 者 不 同 的 学 习 问 题 设计 成 百 上 
千 的 新 学 习 算 法 。 面 对 一 个 学 习 任 务 ， 使 用 者 经 常 面 对 十 几 个 甚至 几 百 个 学 习 算 
法 , 如 何 从 已 有 的 算法 中 选择 一 个 适当 的 方法 或 者 设计 一 个 适合 自己 问题 的 算法 
成 为 当前 机 器 学 习 研 究 者 和 使 用 者 必须 面 对 的 问题 。 早 在 2004 年 , 周志 华 在 国家 
自然 科学 基金 委员 会 秦皇岛 会 议 上 做 了 一 个 名 为 “ 普 适 机 器 学 习 ” 的 学 术 报告 ， 
其 中 曾 明 确 指 出 : 机 器 学 习 “ 以 Tom Mitchell 的 经 典 教科 书 (McGraw Hill 出 版 
ik, 1997) 为 例 , 很 难看 到 基础 学 科 ( 例 如 数学 、 物 理学 ) 教科 书 中 那 种 贯穿 始终 
的 体系 , 也 许 会 让 人 感到 这 不 过 是 不 同方 法 和 技术 的 堆砌 ”。 因 此 , 已 有 的 机 器 学 
习 算 法 是 否 存在 共性 ,是 否 存在 统一 的 框架 来 描述 机 器 学 习 算 法 的 设计 过 程 ， 就 
变 成 了 一 个 亟待 解决 的 问题 。 本 书 将 从 知识 表示 的 角度 出 发 , 来 阐述 我 们 对 这 一 
问题 的 研究 结果 ,并 据 此 讨论 现存 的 机 器 学 习 算 法 的 适用 范围 。 





延伸 阅读 


目前 有 多 种 不 同 的 视角 和 观点 研究 机 器 学 习 。 例如 , 可 以 从 概率 图 角度 来 看 
待机 器 学 习 [2,1, 可 以 从 统计 角度 来 讨论 机 器 学 习 0, 还 可 以 从 神经 网 络 的 观 
点 来 闭 述 机 器 学 习 H9, 也 可 以 调和 以 上 各 派 观 点 来 曾 述 机 器 学 习 [1。 客观 地 说 ， 
上 述 观 点 都 有 一 定 道理 , 但 是 也 有 一 个 共同 而 重要 的 缺陷 ， 那 就 是 没有 给 出 一 
个 统管 一 切 学 习 (包括 机 器 、 人 类 和 生物 ) 的 理论 。 这 正 是 Jordan 和 Mitchell 在 
2015 年 在 Science 上 发 文 指出 的 , 机 器 学 习 所 关注 的 两 大 问题 之 一 : 是 否 存在 统管 
一 切 机 器 、 人 类 和 生物 的 学 习 规 律 0。 本 书 将 致力 于 解决 这 一 个 问题 。 为 此 , 本 
书 采取 了 不 同 于 以 往 的 观点 ， 从 知识 表示 这 一 角度 来 阐述 机 器 学 习 ， 并 以 此 为 出 
发 点 对 现在 的 机 器 学 习 方 法 进行 统一 研究 。 

本 书 的 基本 出 发 点 是 , 每 个 机 器 学 习 算 法 都 有 自己 的 知识 表示 。 如 果 数 据 中 
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含有 的 知识 不 适合 特定 机 器 学 习 算 法 的 知识 表示 , 期望 这 种 机 器 学 习 算 法 能 够 学 
到 数据 中 含有 的 知识 并 不 现实 。 因 此 , 知识 表示 对 于 机 器 学 习 至 关 重 要 。 但 是 , 众 
所 周知 , 经 典 的 知识 定义 是 柏拉图 提出 的 , 在 2000 多 年 的 时 间 里 未 受到 严重 的 挑 
HR. 直到 1963 4E, 盖 梯 尔 写 了 一 生 唯一 的 一 篇 三 页 纸 论文 。 这 短 短 的 三 页 纸 使 羡 
梯 尔 成 为 哲学 史上 绕 不 过 去 的 人 物 , 改变 了 盖 梯 尔 的 命运 ,也 改变 了 知识 论 的 发 
展 进 程 。 这 三 页 纸 中 提出 的 盖 梯 尔 难 题 直 接 和 否定 了 经 典 的 知识 定义 上。 其 直接 后 
果 是 到 目前 并 没有 一 个 统一 的 知识 定义 , 更 不 用 说 知识 的 统一 表示 。 因 此 , 暂时 
放弃 知识 的 整体 研究 , 而 致力 于 知识 的 基本 组 成 单位 研究 也 许 是 一 条 更 为 可 行 的 
路 径 。 本 书 即 是 这 样 的 一 个 尝试 和 努力 。 

有 趣 的 是 , 知识 的 最 小 组 成 单位 是 概念 中 , 而 知识 自身 也 是 一 个 概念 。 因此， 
研究 概念 的 表示 也 将 有 助 于 从 本 质 上 理解 机 器 学 习 。 正 是 从 这 一 点 出 发 ， 本 书 以 
一 种 统一 的 方式 研究 了 常见 的 机 器 学 习 算法 , 如 密度 估计 、 回 归 、 数 据 降 维 、 聚 类 
和 分 类 等 。 

当然 , 机 器 学 习 的 发 展 不 仅 与 知识 表示 直接 相关 ,也 与 最 优化 、 统计 等 密切 
相关 。 历 史上 ,计算 机 、 数 学、 心理 学 、 神 经学、 生物 信息 学 、 哲 学 等 很 多 学 科 都 
曾 极 大 地 促进 了 机 器 学 习 的 发 展 。 未 来 是 否 还 有 其 他 学 科 对 机 器 学 习 有 重要 影 
响 , 也 是 一 个 有 趣 的 话题 。 

最 后 , 稍微 讨论 一 下 与 机 器 学 习 相关 的 学 习 、 研 究 资 料 。 目前, 机 器 学 习 的 
发 展 方兴未艾 , 特别 是 学 习 算 法 的 研究 成 果 日 新 月 异 。 除 了 已 经 列 入 参考 文献 的 
部 分 经 典 著作 外 , 还 有 很 多 有 影响 的 学 术 会 议 、 学 术 期 刊 和 网 络 资源 等 ,如 机 器 
学 习 相关 学 术 会 议 ICML NIPS, COLT, 学 术 期 刊 TPAMI 和 JMLR, 网 络 资源 
http://videolectures.net/， 有 兴趣 的 读者 可 以 自行 查阅 。 


习 题 

1. 机 器 学 习 可 以 从 哪些 观点 或 角度 进行 研究 或 者 阐述 ? 你 比较 赞同 哪 种 观点 ? 为 什么 ? 

2、 你 认为 机 器 学 习 的 发 展 存在 哪些 问题 ? 如 何 有 效 地 解决 这 些 问题 ? 

3. 机 器 学 习 综合 了 很 多 其 他 学 科 的 知识 , 正 是 由 于 这 些 学 科 的 加 入 , 才 促使 了 机 器 学 习 的 
发 展 。 你 认为 还 有 必要 将 哪些 学 科 或 领域 的 知识 加 入 到 机 器 学 习 中 ? 机 器 学 习 未 来 将 何 
去 何 从 ? 

A. 请 你 拿 笔 任意 地 在 纸 上 写 10 k “machine” 这 个 单词 ， 再 请 你 一 个 同学 也 在 纸 上 写 10 次 
这 个 单词 。 然 后 你 们 观察 这 20 个 单词 (可 以 看 成 20 张 图 片 ), 试 着 去 提取 它们 的 特征 ， 
比如 笔画 、 弯曲 处 和 图 的 特点 , 来 识别 你 的 笔迹 和 你 同学 的 笔迹 。 然后 想 想 如 何 让 计算 
机 做 这 件 事情 。 
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第 2 章 归 类 理论 


伯 牙 鼓 琴 ， 钟 子 期 听 之 ， 方 鼓 琴 而 志 在 太 山 ， 钟 子 期 日:“ 善 哉 乎 鼓 

人 琴 ， 赔 宙 乎 若 太 山 。” 少 选 之 间 ， 而 志 在 流 水 ， 钟 子 期 又 日 :“ 善 哉 乎 鼓 

琴 , 汤 汤 乎 若 流 水 .” 钟 子 期 死 ， 伯 牙 破 琴 绝 弦 , 终身 不 复 鼓 琴 ， 以 为 世 
无 足 复 为 鼓 琴 者 。 

一 一 《 吕 氏 春秋 。 本 味 》 


如 同 引言 所 论 , 机 器 学 习 的 基本 任务 是 获取 知识 ,因此 最 终 输 出 结果 为 知 
iR (可 以 是 显 性 知识 , 也 可 以 是 隐 性 知识 )。 众所周知, 知识 (knowledge) 由 各 种 
概念 组 成 , 概念 是 构成 人 类 知识 世界 的 最 小 单元 。 人 们 必须 借助 概念 才能 理解 世 
Jt, 认 知 世界 ,如 同 老 子 所 说 ,“ 有 名 ， i 又 如 同 德国 诗人 所 言 , “词语 生 
成 , 如 同 花 条 开放 ”。 如果 没有 概念 , 就 会 如 同 德国 诗人 格 奥 尔格 所 说 ,“ 于 是 我 户 
伤 地 学 会 了 弃 绝 : 词语 破碎 处 ， 2 因此 , 机 器 学 习 首 先 要 解决 的 是 如 
何 从 数据 中 学 习 概 念 。 

什么 是 概念 呢 ? 远 在 亚 里 士 多 德 时 代 ， 人 们 已 经 开始 寻找 定义 概念 的 方法 。 
在 1953 年 以 前 , 通常 认为 概念 可 以 精确 定义 。 之 所 以 有 些 概念 目前 不 能 准确 定 
X, 仅仅 是 因为 受 限 于 目前 的 认 知 水 平 , 人 类 还 缺乏 发 现 相关 概念 精确 定义 的 能 
Jio 按照 这 样 一 种 信念 得 到 的 概念 定义 , 称 之 为 经 典 定义 。 在 这 样 一 种 概念 定义 
中 ,对象 属于 或 不 属于 一 个 概念 是 一 个 二 值 问 题 。 通常 , 概念 有 内 涵 (intension) 
和 外 延 (extension) 两 种 表示 (representation)。 概 念 的 内 涵 表 示 反 映 和 揭示 概念 
的 本 质 属 性 , 是 人 类 主观 世界 对 概念 的 认 知 ,可 存在 于 人 的 心智 之 中 ， 用 命题 来 
表示 ; 概念 的 外 延 表示 包含 了 与 概念 对 应 的 各 种 具体 实例 ,是 一 个 由 具有 概念 本 
质 属性 的 对 象 构成 的 集合 , 数学 上 用 集合 或 划分 矩 阵 来 表示 , 概念 的 外 延 表示 是 
外 部 可 观测 的 , 可 度量 的 。 如 素数 的 内 涵 表 示 为 只 能 被 1 和 其 自身 整除 的 自然 数 ， 
其 外 延 表示 为 素数 集合 {2, 3, 5, 7, 11, 13, 17, 19, 23, 29, 31,---}. 

但 是 ,1953 年 维特 根 斯 坦 通过 研究 “游戏 ”这 个 概念 , 对 于 概念 的 内 涵 表 示 
的 存在 性 提出 了 严重 质疑 ， 认 为 不 是 所 有 的 概念 都 存在 经 典 的 内 涵 表 示 命题 表 
示 ) 器。 现代 认 知 科学 的 发 展 支持 这 一 看 法 ,明确 指出 , 各 种 日 常 概念 如 人 、 猫 、 
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狗 等 都 不 一 定 存 在 经 典 的 内 涵 表 示 ( 命 题 表 示 )。 为 了 替代 概念 的 经 典 内 涵 表 示 
理论 , 现代 认 知 科学 已 经 提出 了 几 种 新 型 的 概念 内 涵 表 示 理 论 : 原型 理论 、 样 例 
理论 和 知识 理论 加。 原型 理论 认为 一 个 概念 可 由 一 个 原型 来 表示 ， 一 个 原型 可 
以 是 一 个 实际 的 或 者 虚拟 的 对 象 样 例 , 通常 假设 为 概念 的 最 理想 代表 。 比 如 好 人 
这 个 概念 很 难 有 一 个 命题 表示 , 但 是 在 中 国 , 好 人 通常 用 雷锋 来 表示 , 雷锋 就 是 
好 人 的 原型 。 样 例 理论 认为 概念 不 可 能 由 一 个 原型 来 代表 , 但 是 可 以 由 多 个 样 例 
来 表示 , 理由 是 一 两 岁 的 婴儿 已 经 可 以 使 用 人 这 样 的 概念 了 , 但 是 由 于 其 接触 的 
人 的 个 体 数量 非常 有 限 ， 其 具有 人 这 个 概念 原型 的 可 能 性 很 低 。 更 进一步 ， 认 知 
科学 家 发 现 , 在 各 种 人 类 文明 中 , 都 存在 颜色 概念 , 但 是 具体 的 颜色 概念 各 有 差 
^t. 由 此 推断 出 , 单一 概念 不 可 能 独立 于 特定 的 文明 之 外 而 存在 。 由 此 形成 了 概 
念 的 知识 理论 。 在 知识 理论 里 , 认为 概念 是 特定 知识 框架 (文明 ) 的 一 个 组 成 部 
分 。 但 是 , 不 管 怎样 , 认 知 科学 总 是 假设 概念 在 人 的 心智 中 是 存在 的 。 这 一 点 也 为 
最 近 的 文献 所 证 实 铅 。 本 书 也 采用 这 样 的 假设 。 概 念 在 人 心智 中 的 表示 称 为 认 知 

当 人 们 心中 有 了 概念 ， 必然 使 用 这 些 概念 对 世界 上 的 对 象 进行 归 类 。 无 论 人 
们 过 到 什么 , 都 能 自动 将 其 归 类 , 如 天 空 、 树 、 海 洋 等 。 人 们 的 日 常生 活 离 不 开 归 
类 能 力 。 比 如 : 吃 早 餐 需 要 将 品 相 各 异 的 食物 归 类 为 对 应 的 概念 , 像 包 子 、 粥 、 米 
饭 、 馒 头 、 油 条 等 , 这 样 才能 从 早餐 师傅 那里 得 到 自己 想 要 的 早餐 。 乘 车 需要 正确 
识别 各 路 公共 汽车 , 这 样 才能 保证 路 线 无 误 并 快速 准确 地 到 达 目 的 地 。 总 之 , 归 
类 是 人 类 一 项 最 重要 而 且 也 最 基本 的 认 知 能 力 。 归 类 正确 与 否 明确 显示 了 人 是 否 
掌握 了 与 该 类 对 应 的 概念 。 一 个 正常 的 七 八 岁 儿童 已 经 能 够 将 世界 上 的 自然 类 别 
正确 归 类 。 因 此 , 一 个 自然 的 希望 是 机 器 通过 学 习 也 拥有 类 似 的 归 类 能 力 。 正 如 
第 1 音 所 言 ， 由 于 目前 的 概念 表示 研究 结果 适合 于 机 器 学 习 , 机 器 学 习 已 经 对 归 
类 问题 积累 了 丰富 的 研究 成 果 ， 而 且 还 在 不 断 出 现 新 的 研究 成 果 。 在 本 书 中 , 类 
与 概念 具有 相同 的 语义 , 实际 上 , 模式 与 类 也 有 同样 的 语义 。 考 虑 机 器 学 习 领 域 
的 习惯 , 本 文 将 主要 使 用 “类 ”这 个 术语 。 综 上 所 述 ， 类 的 表示 有 内 蕴 表 示 和 外 部 
表示 两 种 。 类 的 外 部 表示 包括 类 中 对 象 的 特性 表示 和 类 的 外 延 表示 ， 对 象 特性 表 
示 第 1 章 已 经 研究 过 了 , 类 的 外 延 表示 显示 了 对 象 的 归 类 情况 。 类 的 内 列表 示 显 
示 了 类 在 心智 中 的 表示 , 即 内 部 表示 , 其 包括 认 知 表示 和 如 何 使 用 认 知 表示 归 类 ， 
换 名 话说 ， 认 知 表示 是 类 的 内 列表 示 的 一 部 分 。 

人 到 底 是 如 何 归 类 的 呢 ? 2500 年 前 哲学 家 赫 拉 克利 特 (Heraclitus) 已 经 知 
道 “ 人 不 能 两 次 踏 进 同一 条 河流 ”，17 世纪 莱 布 尼 茨 也 说 过 “世上 不 存在 两 片 相 
同 的 树叶 ”, 中 国 的 先贤 孟子 也 曾经 提出 “ 夫 物 之 不 齐 , 物 之 性 也 ”。 然 而， 人 虽然 
不 能 两 次 踏 进 同 一 条 河流 , 没有 见 过 两 片 相同 的 树叶 , 但 不 能 将 一 条 河流 、 两 片 
树叶 进行 正确 归 类 的 情形 并 不 多 见 , 即使 这 条 河流 已 经 屡 经 变迁 (如 黄河 )、 两 片 
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树叶 大 小 、 颜 色 、 形 状 有 异 。 原 因 何 在 ? 认 知 科学 家 认为 ,一 条 河流 虽然 每 时 每 刻 
都 在 变化 , 但 由 于 河流 在 每 一 时 刻 与 其 相近 时 刻 的 变化 非常 小 , 在 人 们 的 感觉 中 
二 者 是 非常 相似 的 ， 甚 至 于 对 二 者 难以 区 分 。 换 句 话 来 说 ， 人们 很 容易 将 一 条 河 
流 进行 归 类 ， 人 类 是 依赖 于 相似 性 将 对 象 归 类 的 已 3。 类 似 的 分 析 对 于 树叶 也 是 
成 立 的 。 甚 至 有 认 知 实验 证 明 不 仅 儿童 是 基于 相似 性 表示 类 的 ， 甚 至 基于 相似 性 
的 类 表示 在 发 育 过 程 中 是 默认 设置 回 。 

从 直观 上 说 ， 人 们 之 所 以 将 某 个 对 象 归 为 某 个 类 ,是 因为 该 对 象 最 像 该 类 ; 
反之 , 如 果 某 个 对 象 最 像 某 个 类 ， 则 该 对 象 应 该 归 为 该 类 。 简 言 之, 归 类 遵循 的 
原则 应 该 是 : 归 哪 类 , 像 哪 类 ; 像 哪 类 , 归 哪 类 。 更 直 白 的 解释 是 , 归 类 遵循 的 原 
则 应 该 是 人 们 心里 想 的 归 类 结果 要 与 客观 的 归 类 结果 一 致 。 人 类 文明 的 发 展 史 表 
明 ， 人 类 不 断 通过 学 习 , 总 结 出 与 客观 实践 更 一 致 的 知识 。 因 此 , 我 们 需要 定义 什 
么 是 归 ? 什么 是 像 ? 对 于 人 类 来 说 “ 归 ” 是 对 对 象 归 类 的 外 显 指称 ,是 人 使 用 类 
外 延 表示 的 方式 ,“ 像 ”是 对 对 象 归 类 的 内 在 指称 ,是 人 使 用 类 认 知 表示 的 方式 。 
归 和 像 都 是 概念 表示 的 一 部 分 , 即 属于 知识 表示 的 内 容 。 

回 到 机 器 学 习 , 正如 第 1 章 所 说 , 我 们 希望 机 器 学 习 能 够 学 到 知识 ， 自 然 也 
希望 归 类 算法 能 够 像 人 一 样 对 对 象 进 行 归 类 ,具有 同样 的 知识 表示 架构 。 对 于 归 
类 学 习 算 法 来 说 , 其 输入 反映 的 是 外 部 信息 提供 者 的 归 类 信息 , 其 输出 是 算法 学 
到 的 归 类 信息 。 因此, 根据 以 上 的 讨论 , 将 归 类 学 习 算法 输入 输出 中 的 归 类 信息 
形式 化 即 可 以 得 到 机 器 学 习 的 一 个 新 定义 。 





2. ”类 表示 公理 


那么 什么 是 归 类 问题 呢 ? 简单 地 说 ， 归 类 问题 就 是 这 样 一 个 问题 : 当 已 经 知 
道 一 个 概念 〈 或 者 概念 集 ) 的 有 限 外 延 子 集 ， 如何 计 算 其 对 应 的 概念 (或 者 概念 
集 ) 表示 ? 归 类 算法 就 是 解决 归 类 问题 的 算法 。 显然, 归 类 算法 都 有 输入 和 输出 ， 
归 类 输入 体现 了 人 们 希望 算法 学 到 的 类 信息 , 归 类 输出 反映 了 算法 实际 学 到 的 类 
信息 , 因此 都 应 该 对 应 着 各 自 的 类 表示 。 根 据 上 一 节 的 分 析 , 类 表示 有 外 部 表示 
和 内 列表 示 。 故 归 类 输入 有 内 列表 示 和 外 部 表示 ， 归 类 输出 也 有 内 区 表 示 和 外 部 
表示 。 我 们 首先 讨论 归 类 输入 。 

归 类 输入 的 外 部 表示 由 一 个 有 限 抽样 对 象 集合 O = (oi oo, ,on} 的 归 类 
输入 外 部 信息 组 成 , 包括 对 象 的 特性 输入 表示 和 对 应 的 类 外 延 表示 。 对 象 特 性 输 
入 表示 X = {z1, 7z2,… zw) HO cA TE {X1, X2, XU) 其 中 zk 代表 对 象 
ok 的 特性 输入 ,，X; 是 X 中 属于 第 i 输入 类 的 对 象 子 集 ， 其 对 应 的 归 类 输入 的 类 
外 延 表示 由 划分 矩阵 U = [uinlexn 表示 ,其 中 wak 表示 对 象 ok 属于 第 i 个 输入 类 
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的 隶属 度 , uir > Oo U 有 时 也 称 为 隶属 矩阵 。 不 同 的 划分 约束 , 产生 不 同 的 划分 
JERE, 3 种 典型 的 划分 矩阵 如 下 : 


c N 
e 硬 划分 : SO ua — 1, ui € {0,1}, 35 ui > 1; 
i kat 


c N 
e 软 划分 : Y uik = 1, ug > 0, YO uik > 0; 
i 


k=1 
€ N 
e 可 能 性 划分 : 》 uir > 0, uik Z0, Y; ui > 0. 
ii k=1 


因此 ， 归 类 输入 的 外 部 表示 可 以 表示 为 (X,U)。 当 UU 已 知 , 一 个 对 象 总 
是 被 指派 到 具有 最 大 隶属 度 的 类 中 ,由 此 可 以 定义 指派 算 子 一 如下: X = 
[zü, i9, EN TS 其 中 ， Ty = arg max; Uiko Tk 可 以 读 作 Tk 外 部 指称 为 第 Ti 类 ， 
也 可 以 读 作对 象 ok 在 归 类 输入 端 被 外 部 指称 为 第 去 . 类 。 

归 类 输出 的 外 部 表示 可 以 表示 为 (Y,V)， 其 中 对 象 特性 输出 表示 YY = 
Unas yn} 归 为 c 个 子 集 {Y1, Yos Yep 其 中 ye 代表 对 象 ok 的 特性 输 
出 , Y; 是 Y 中 属于 第 ;输出 类 的 对 象 子 集 ， 其 对 应 的 归 类 输出 的 类 外 延 表 示 由 划 
分 矩阵 了 = [vinlexn KR, HP vin 表示 对 象 o 对 第 i 个 输出 类 的 隶属 度 。 当 VV 
已 知 ， 一 个 对 象 也 总 是 被 指派 到 具有 最 大 隶属 度 的 类 中 , 由 此 可 以 定义 指派 算 子 
二 如下: Y-(jfdeeewwp 其 中 ge = arg maxi vine gy 可 以 读 作 yy 外 部 指 
称 为 第 y. 28, 也 可 以 读 作对 象 w 在 归 类 输出 端 被 外 部 指称 为 第 gi 类 。 指 派 算 子 
一 明确 定义 了 什么 是 归 。 

根据 输出 划分 矩阵 的 类 型 ， 归 类 方法 可 分 为 硬 归 类 方法 和 软 归 类 方法 , 硬 归 
类 方法 的 输出 划分 和 矩阵 为 硬 划 分 矩阵 , 软 归 类 方法 的 输出 划分 和 矩 阵 为 软 划分 矩阵 
或 可 能 性 划分 矩阵 。 在 硬 归 类 方法 中 , 一 个 对 象 只 属于 一 个 类 , 划分 矩阵 直接 说 
明了 各 个 对 象 属于 哪 一 类 。 只 有 该 对 象 明确 属于 该 类 时 , 其 对 应 的 元 素 为 1; 如 该 
对 象 不 属于 该 类 , 其 对 应 的 元 素 为 0。 在 软 归 类 方法 中 , 划分 矩 阵 说 明了 各 个 对 象 
属于 各 类 的 可 能 性 , 对 象 的 具体 归 类 由 指派 算 子 决定 。 显然, 指派 算 子 是 归 类 对 
象 的 外 显 指称 , 表现 了 对 象 与 类 之 间 的 外 显 对 应 关系 。 

假设 vi, 第 i 类 的 输入 认 知 表示 为 XX;, 第 i 类 的 输出 认 知 表示 为 各。 正如 前 
面 分 析 ， 类 的 认 知 表示 也 有 归 类 能 力 。 当 类 的 认 知 表示 已 知 时 , 一 般 是 对 象 像 哪 
类 便 归 哪 类 。 因 此 , 需要 定义 类 与 对 象 的 相似 度 。 考虑 到 输出 输入 表示 不 一 定 相 
同 ,下面 分 别 定义 输入 类 相似 性 映射 和 输出 类 相似 性 映射 。 

输入 类 相似 性 映射 : 

Simx: X x (Xi, Xo, -- ,Xe} Ry 是 输入 类 相似 性 映射 , 满足 条 件 : 函数 
Simx (zi, X;) 值 增加 表示 zk 和 Xi 相似 性 增 大 ， 函 数 Simx (zx, X;) 值 减 少 表示 
zk 和 X; 的 相似 性 减少 。 
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输出 类 相似 性 映射 : 

Simy: Y x (Yi, Yo, , Y.] Ry 是 输出 类 相似 性 映射 ， 满 足 条 件 : 函数 
Simy (yy, Yi) 值 增加 表示 yy 和 Y; 相似 性 增 大 ,函数 Simy (yx. Yi) 值 减少 表示 Yk 
和 Y; 的 相似 性 减少 。 

知道 了 输入 类 相似 性 映射 ， 同 样 可 以 根据 相似 度 将 对 象 进行 归 类 ， 其 原 
则 也 非常 简单 ， 对 象 ok 的 特性 输入 zx 与 哪个 输入 类 的 认 知 表示 最 相似 ， 即 
归 为 哪 一 类 。 由 此 定义 相似 算 子 ~ 如 下 : X = (Xu. EN) 其 中 ,Ft = 
arg max; Simx (zy, Xi)o Te 可 以 读 作 zk AAR EK WS Te 类 ,也 可 以 读 作对 象 ok 
在 归 类 输入 端 被 内 草 指 称 为 第 zy. 类 。 

同样 ， 知道 了 输出 类 相似 性 映射 , 同样 可 以 根据 相似 度 将 对 象 进行 归 类 ， 即 
对 象 on 的 特性 输出 yi 与 哪个 输出 类 的 认 知 表示 最 相似 , 就 归 为 哪 一 类 。 由 此 定 
义 相似 算 子 ~ 如下: Y = (ngos Tv}, IEP, Te = arg max; Simy (ys, Y;)- Te 
可 以 读 作 yi. 内 荀 指称 为 第 多 28, 也 可 以 读 作对 象 ok 在 归 类 输出 端 被 内 蕴 指 称 为 
58 y. 类 。 相 似 算 子 ~ 明确 定义 了 什么 是 像 。 

FRE b. WR y. HA, Simy (ys Yn) RK, Simy if. A, Te 单 
值 ，Simx (zy, Xz,) 值 越 大 ， Simx 越 好 。 

类 似 地 , 可 以 定义 输入 类 相 异 性 映射 和 输出 类 相 异 性 映射 。 

输入 类 相 异 性 映射 : 

Dsx: X x {Xn X2 Xe} o. Ry 是 类 相 异 性 映射 ， WEA: 函数 
Dsx (zy, Xi) 值 增加 表示 zk 和 Xi 相似 性 减少 ， 函 数 Dsx (zh, Xi) 值 减少 表示 
ay 和 Xi 的 相似 性 增加 。 

输出 类 相 异 性 映射 : 

Dsy: Y x (Yi, Yo, , Y.) o. Ry 是 类 相 异 性 映射 ,满足 条 件 : 函数 Dsy (yx, Yi) 
值 增加 表示 yx, 和 Y; 相似 性 减少 , 函数 Dsy (yn. Yi) 值 减少 表示 y Y; 的 相似 性 
增加 。 © 

输入 类 相 异 性 映射 同样 可 以 将 对 象 进行 归 类 , 其 原则 也 非常 简单 ， 对象 o 的 
特性 输入 zx 与 哪个 输入 类 的 认 知 表示 相 异 度 最 小 , 即 归 为 哪 一 类 。 由 此 定义 相 
似 算 子 ~ 如 下 : X = (Xu. Ew}, 其中, Xy = arg min; Dsx (zx, Xi)。 同样 ， 
知道 了 输出 类 相 异 性 映射 , 同样 可 以 根据 相似 度 将 对 象 进行 归 类 ， 即 对 象 o 的 特 
性 输出 yx 与 哪个 输出 类 的 认 知 表示 相 异 度 最 小 ,就 归 为 哪 一 类 。 由 此 定义 相似 
IET ~ 如 下 : Y = {7,02 Tw} 其 中 , H = arg min; Dsy (y. Y;). 理论 上 , 如 
TR Jk 单 值 ， Dsy (yx. Ya.) 值 越 小 Dsy 越 好 。 类 似 地 , zy 单 值 ， Dsx (zx. Xz, ) fü 
越 小 Dsx 越 好 。 相 似 算 子 是 归 类 对 象 的 内 在 指称 ,以 内 蕴 的 方式 反映 了 客观 对 


外 为 了 方便 理解 ,本 章 假 设 类 相似 性 映射 和 类 相 异 性 映射 非 负 。 在 实际 应 用 中 , 类 相似 性 映射 和 类 相 异 性 映 
射 可 以 取 负 实数 , 不 影响 本 书 的 结论 。 
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象 与 认 知 类 表示 之 间 的 潜在 对 应 关系 。 

根据 以 上 分 析 , 如 果 归 类 输入 的 外 部 表示 为 (X,U), 则 其 对 应 的 归 类 输入 内 
部 表示 为 (区 ,Simx ) 或 者 (X, Dsx), HP X = (Xa, Xo, p, Xe} 简单 地 说 , 可 称 
(X,U, X, Simx) £ (X,U, X, Dsx) 为 归 类 输入 , (X,U) 为 外 显 输入 , (X, Simx ) 或 
(X,Dsx) 为 内 在 输入 。 同 样 地 ， 归 类 输出 的 外 部 表示 为 (Y, V), 则 其 对 应 的 归 类 
输出 内 部 表示 为 (Y, Simy) 或 者 (Y. Dsy) HF Y = (Yi, Yo, Ys). 简单 地 说 ， 
可 称 (Y, V. Y. Simy) 8È (Y, V. Y, Dsy) 为 归 类 输出 , (Y, V) 为 外 显 输 出 , (Y, Simy) 
或 (Y,Dsy) 为 内 在 输出 。 显 然 归 类 输出 即 归 类 结果 。 今 后， 如果 不 特别 指出 , 我 
们 将 不 区 分 归 类 输出 与 归 类 结果 。 

理论 上 , 对 任意 一 个 归 类 算法 而 言 , 其 外 显 输入 和 外 显 输出 一 定 存在 对 应 的 
内 在 输入 和 内 在 输出 。 只 有 在 这 种 假设 下 , 我 们 才能 说 归 类 算法 确实 学 习 到 了 概 
念 。 这 个 假设 , 我 们 称 之 为 类 表示 存在 公理 。 

类 表示 存在 公理 : 

对 一 个 归 类 算法 , 如 果 其 外 显 输入 为 (X,U) 其 外 显 输出 为 (Y, V) 则 一 定 
存在 对 应 的 内 在 输入 (X, Simx) 和 内 在 输出 (Y, Simy )。 

更 进一步 , 对 一 个 归 类 算法 , 我 们 通常 期 望 其 对 于 一 个 对 象 的 输入 表示 、 输 
出 表示 有 相同 的 类 指称 。 更 加 明确 地 说 ,由 于 内 在 输入 (X, Simx ) 和 其 对 应 的 内 
在 输出 (Y, Simy) 描述 的 是 同一 组 外 在 对 象 , 因此 一 个 对 象 类 的 输入 输出 内 蕴 指 
称 应 该 相同 , 故 必 有 (X) = (Y), 这 里 X = Y Bee SOW k(t = 5). 由 于 外 显 输 
入 (X,U) 和 其 对 应 的 外 显 输出 (Y, V) 描述 的 是 同一 组 外 在 对 象 , 因此 任 一 个 对 
象 其 类 的 输入 输出 外 部 指称 也 应 该 相同 , Mo X — Y, 这 里 X = 了 被 定义 为 
Vk(i = yk). IER X. = Y . 这样 的 一 个 假设 , 我 们 称 之 为 类 表示 唯一 性 公理 。 其 
形式 化 表示 如 下 。 

对 一 个 归 类 算法 , 如 果 其 输入 为 (X,U, X, Simx), 其 输出 为 (Y, V, Y, Simy); 
则 (X, x, X) = (7,Y,Y). 

注意 到 , 特性 输入 zi 与 其 对 应 的 特性 输出 ye 都 表示 对 象 ok。 更 一 般 地 , 设 
特性 输入 z 与 其 对 应 的 特性 输出 y 都 表示 同一 对 象 o, 则 可 以 假设 存在 从 z~y 的 
一 个 映射 9, 使 得 y = O(a). WAR X — Y. WA Simy (y Yi) = Simy (0(.), Y;) = 
Simy(0(zx), Xi)。 因 此 ， 如 果 类 表示 唯一 公理 成 立 ，Simx(zk,Xi) 可 以 被 
Simy (9(zx), Xi) 定义 。 WAR Sims (zi, wi) 可 以 被 Simy (0(zk), Xi) EX, WI X — Y 
必然 保证 总 = Y. 更 进一步 , UR X — Y. 则 易 知 此 时 o 为 恒 同 映射 , 前 面 的 分 
析 说 明 Simy (yy, Yi) = Simx (zx, Xi)。 

类 表示 存在 公理 和 类 表示 唯一 公理 统称 为 类 表示 公理 。(X, Simx) 是 期 望 学 
SIM, (Y, Simy) 是 实际 学 到 的 。 通常 , XX 所 在 的 空间 称 为 对 应 学 习 算 法 的 目标 空 
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间 , Y 所 在 的 空间 称 为 对 应 学 习 算法 的 假设 空间 。 类 表示 唯一 公理 给 出 了 学 习 完 
全 成 功 的 条 件 : 输入 输出 应 该 具有 相同 的 类 表示 语义 。 在 机 器 学 习 中 , 学 习 算法 
的 一 个 基本 假设 是 要 求 目标 空间 与 假设 空间 的 交集 至 少 不 为 空 集 , 这 实际 上 是 类 
表示 唯一 公理 的 一 个 弱化 描述 。 而 一 个 理想 的 学 习 算法 , 信息 输入 者 的 归 类 信息 
应 该 与 算法 学 到 的 归 类 信息 在 归 类 意义 下 相同 。 需要 注意 的 是 , 在 学 习 过 程 中 ， 
虽然 假设 (X, Simx) 和 (Y, Simy) 同时 存在 , 但 二 者 通常 不 能 被 学 习 算 法 同时 
得 到 。 

尤其 有 趣 的 是 , 类 表示 公理 也 是 人 们 日 常生 活 正确 对 话 的 必要 条 件 。 否则 ， 
如 果 两 个 人 的 对 话 对 同一 个 对 象 归 类 不 一 致 ， 就 会 变 成 “ 鸡 同 鸭 讲 ”， 轻 则 闹 笑 
话 , 重 则 严重 误 事 ， 甚 至 危及 自身 。 








2.2 归 类 公理 


根据 常识 可 知 , 一 个 合理 的 类 表示 应 该 与 人 类 认 知 保持 一 致 。 而 在 人 类 的 认 
知 系统 中 , 归 哪 类 , RUA MAE, 归 哪 类 。 这 意味 着 : 一 个 对 象 z 指派 到 类 A 
而 非 其 他 类 的 条 件 是 x 和 4 的 认 知 表示 相似 性 最 大 。 任意 类 A 至 少 有 一 个 对 象 ， 
该 对 象 与 类 A 有 最 大 的 类 相似 性 。 类 的 认 知 表示 应 该 和 它 的 划分 表示 具有 相同 的 
归 类 能 力 。 基 于 上 述 的 观察 ， 自 然 得 到 如 下 三 个 归 类 公理 ， 

(1) 样本 可 分 性 公理 (Sample Separation Axiom, SS): 一 个 对 象 总 有 唯 
一 一 个 类 与 其 最 相似 。 

(2) 类 可 分 性 公理 (Categorization Separation Axiom, CS): 一 个 类 至 
少 有 一 个 对 象 与 其 最 相似 。 

(3) 归 类 等 价 公理 (Categorization Equivalency Axiom, CE): 对 于 任 
意 一 个 类 , 其 认 知 表示 与 外 延 表示 的 归 类 能 力 等 价 。 

更 准确 地 说 ,如果 一 个 归 类 结果 表示 为 (Y, V, Y, Simy)， 则 两 个 可 分 性 公理 
和 归 类 等 价 性 公理 可 表示 为 如 下 的 数学 形式 : 

(1) 样本 可 分 性 公理 : Visi (GF, = i) 

(2) 类 可 分 性 公理 : Vidk(gy = i) 

(3) 归 类 等 价 公理 : Y =Y 

当归 类 结果 表示 为 (Y, V, Y, Dsy) 时 , 归 类 公理 同样 表示 如 下 : 
OD 样本 可 分 性 公理 : Vkai(gy = i) 
(2) 类 可 分 性 公理 : Vi3k(yi = i) 
(3) 归 类 等 价 公 理 : Y =Y 
如 果 一 个 归 类 结果 满足 归 类 公理 ,其 必然 满足 定理 2.1 所 述 的 性 质 。 
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定理 2.1 如 果 一 个 归 类 结果 (Y, V, Y, Simy) 满足 类 可 分 性 公理 , 则 有 : 
1. Vivi((i # j) > (Yi # Y) 
2. 存在 至 少 co PTR yn, f ViVj((i A j) —> (Yr: F Ye )) 成 立 


证 明 对 一 个 归 类 结果 (Y, V, Y, Simy), FE i A j fE Y; = E 根据 类 
可 分 性 公理 , 对 子 集 Yi, 存在 对 象 yp, IE Simy (yr: Yi) > Simy (yy Yj) 成 立 。 然 
» Y; = Y; 意味 着 Simy (y, Yi) = Simy (ys. Yj) 存在 矛盾 。 因此, 第 一 个 结论 








PE 





得 证 。 

类 似 地 ， 如 果 归 类 结果 满足 类 可 分 性 公理 ,对 Y, 存在 对 象 y, 使 得 yz, = 
i, 则 必然 有 Vi((j A i) 一 (Simy (yr: Y) > Simy (yr, Y;))) 成 立 。 如 果 存 在 
tA jy. = ye; 成立， DU 则 Simy (vw, Yo) > Simy (y, Yj) H. Simy (yr;, Y) > 
Simy (yk Yi) Hi P y& = yn， 意味 着 Simy (yko Yi) > Simy (yk; Yj) 和 
Simy (yx, Yj) > Simy (yy Yi) 存在 矛盾 。 因 此 第 二 个 结论 得 证 。 Oo 

需要 指出 的 是 , 样本 可 分 性 公理 要 求 并 不 高 , 为 了 清楚 的 说 明 这 一 点 , 可 以 
证 明 如 下 定理 。 


定理 2.2 如 果 vkvivj((j # i) — (Simy (yr, Y;) # Simy (yx, Yj)» 则 样本 可 
分 性 公理 成 立 。 


证 明 留 作 习 题 。 
实际 上 , 归 类 公理 也 可 以 导出 对 于 隶属 度 函 数 的 约束 条 件 ， 见 定理 2.3。 


定理 2.3 如 果 归 类 结果 (Y, V, Y, Simy) 满足 归 类 公理 , 则 有 

1. Vk3i(i = yk) 

2. Vi3k(i = yx) 

证 明 留 作 习题 。 

容易 知道 ,上述 分 析 和 结果 对 于 归 类 输入 (X,U, X, Simx) 也 是 成 立 的 。 换 名 
WK, (X,U, X, Simx) 也 应 该 满足 SS、CS 和 CE 公理 。 为 了 简洁 起 见 , 我 们 将 
不 复述 类 似 的 结果 。 更 有 意思 的 是 , 归 类 等 价 公 理 和 类 表示 唯一 公理 具有 一 定 的 
联系 , 可 以 证 明定 理 2.4。 

定理 2.4 如 果 归 类 输入 (X,U, X, Simx) 与 其 对 应 的 归 类 输出 (Y, V, Y, Simy) 
满足 归 类 等 价 公理 , WA X=Y SF X =F. 


注意 到 , 特性 输入 zx 与 其 对 应 的 特性 输出 yx 都 表示 对 象 og。 更 一 般 地 ， 
设 特性 输入 z 与 其 对 应 的 特性 输出 y 都 表示 同一 对 象 。， 则 可 以 假设 存在 
M x c y 的 一 个 映射 6, 使 得 y = ola) WAX = Y, WA Simy (yk, Yi) = 


第 2 章 ” 归 类 理论 19 





Simy (9(z#), Yi) = Simy (0(zk), Xi). 因此 , Simx (zx, Xi) 可 以 被 Simy (0(zx), Xi) 
定义 。 如 果 Simx (zk, Xi) 可 以 被 Simy(9(zk),Xi) HEM, WX = 工 必 然 保证 
X = 立 。 基 于 定理 2.4 和 上 面 的 分 析 , X = 了 是 类 表示 唯一 公理 的 最 本 质 的 要 
xk. 特别 当 c=1, AHH X = VY GX =V 自然 成 立 , X=Y 是 类 表示 唯一 公 
理 唯 一 有 意义 的 约束 。 更 进一步 , 归 类 公理 与 类 表示 唯一 公理 给 出 了 类 相似 性 映 
射 应 该 满足 的 条 件 , 指出 输入 类 相似 性 映射 与 输出 类 相似 性 映射 应 在 归 类 意义 下 
等 价 , 这 就 是 所 谓 的 相似 性 假设 。 对 于 归 类 来 说 , 设计 一 个 满足 类 表示 唯一 公理 
的 输出 类 相似 性 映射 极 具 挑战 性 。 通常 在 实际 应 用 中 , 输入 类 相似 性 映射 不 可 能 
在 归 类 意义 下 与 输出 类 相似 性 映射 等 价 , 这 就 是 所 谓 的 相似 性 悖 论 。 当 相似 性 悖 
论 成 真 时 ， 归 类 就 存在 错误 。 前 面 的 分 析 告 诉 我 们 ,解决 相似 性 悖 论 的 关键 是 使 
fj X —Y Jr. (HABE X AY. 因此, 如何 解 决 相似 性 悖 论 就 变 成 了 归 类 问题 
的 一 个 永恒 难题 。 

总 而 言 之 , 类 表示 公理 和 归 类 公理 建立 了 归 类 输入 (X,U,X,Simx) 和 归 类 
输出 (Y, V, Y, Simy) 之 间 的 逻辑 关系 ,如 图 2.1 所 示 。 类 表示 唯一 公理 建立 了 归 
类 输入 (X,U, X, Simx) 与 归 类 输出 (Y, V, Y, Simy) 之 间 的 等 价 关 系 。 归 类 公理 显 
示 了 归 类 输入 (X,U, X, Simy) 和 归 类 输出 (Y, V. Y, Simy) 中 内 部 表示 和 外 部 表 
示 之 间 的 联系 。 图 2.1 中 , 如 果 内 列表 示 (X, Simx) GI, 样本 可 分 性 公理 通过 
实例 化 建立 了 对 象 输入 特性 与 输入 类 认 知 表示 之 间 的 关系 。 说 得 更 明白 一 些 , 类 
相似 性 映射 Simx 建立 了 输入 类 认 知 表示 与 对 象 输入 特性 表示 的 相似 性 关系 ,类 
相似 性 映射 Simy 通过 样本 可 分 性 公理 保证 任 一 个 对 象 输入 特性 表示 可 以 被 唯一 
地 识别 为 某 一 个 输入 类 , 清晰 展示 了 概念 的 实例 化 过 程 。 如 果 外 部 表示 (X,U) 已 
知 ,对 象 集 X 中 的 每 个 对 象 输入 特性 表示 通过 划分 和 矩阵 UV 可 以 指派 到 所 属 输入 
K, U 表示 了 对 象 输入 表示 如 何 概念 化 的 过 程 。 归 类 等 价 公理 保证 了 概念 化 和 实 
例 化 的 一 致 性 。 








外 部 输入 内 部 输入 内 部 输出 外 部 输出 
„ER i - 生成 。 
判别 判别 
等 价 等 价 等 价 
等 价 


图 2.1. 归 类 输入 (X,U, X, Simx) 与 其 对 应 的 归 类 输出 (Y, V, Y, Simy ) 关系 图 
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如 果 由 输出 类 的 认 知 表示 五 理论 上 可 以 生成 外 部 输出 表示 Y, 则 该 输出 类 的 
认 知 表示 为 生成 式 ， 由 该 认 知 表示 导出 的 归 类 模型 是 生成 式 模型 ; WR Y 可 以 得 
到 类 的 认 知 表示 陪 但 由 了 理论 上 不 能 生成 外 部 输出 表示 站， 则 该 输出 类 的 认 知 
表示 为 判别 式 , 由 该 认 知 表示 导出 的 归 类 模型 是 判别 式 模型 。 

如 果 学 习 算 法 可 以 将 了 输出 给 算法 使 用 者 , 则 算法 是 白 箱 的 。 

如 果 学 习 算 法 不 能 将 了 输出 给 算法 使 用 者 而 只 能 输出 (Y. V), 则 算法 是 黑 
箱 的 。 

更 加 简单 的 说 法 是 ， 如 果 学 习 算 法 可 以 输出 类 认 知 表示 ， 则 是 白 箱 算法 ; 如 
果 学 习 算法 不 能 输出 类 认 知 表示 , 则 是 黑箱 算法 。 
























































2.3 ” 归 类 结果 分 类 


归 类 结果 不 一 定 满足 归 类 公理 和 类 表示 公理 。 根据 对 归 类 公理 的 遵守 情况 ， 
可 将 归 类 结果 分 类 。 

一 致 归 类 结果 (consistent categorization result): 如 果 一 个 归 类 结果 满 
足 归 类 公理 和 类 表示 公理 ， 则 该 归 类 结果 是 一 致 的 ,否则 该 归 类 结果 称 为 不 一 至 
的 归 类 结果 。 

一 般 情况 下 ， 归 类 等 价 公理 总 是 满足 的 。 因 此 , 在 忽略 归 类 等 价 公理 的 情形 
下 ， 归 类 结果 可 以 进行 如 下 分 类 。 

正则 归 类 结果 (proper categorization result): 如 果 一 个 归 类 结果 满足 样 
本 可 分 性 公理 和 类 可 分 性 公理 , 则 该 归 类 结果 是 正则 的 。 

在 现实 生活 中 也 有 这 样 的 例子 。 如 各 级 行政 区 划 关 系 。 有 具体 说 来 ,北京 市 有 
区 和 自然 村 或 者 街道 办 事 处 等 行政 划分 。 北 京 市 下 设 16 个 区 , 显然 , 每 个 区 也 至 
少 管辖 一 个 自然 村 或 者 街道 办 事 处 , 每 个 自然 村 或 者 街道 办 事 处 也 只 属于 一 个 北 
京 市 的 一 个 区 。 如 果 将 每 个 自然 村 或 者 街道 办 事 处 视 为 一 个 样 例 , 每 个 区 视 为 一 
个 类 , 这 样 的 行政 划分 符合 样本 可 分 公理 和 类 可 分 公理 , 是 一 个 正则 归 类 结果 。 

重合 归 类 结果 (overlapping categorization result): 如 果 一 个 归 类 结果 
满足 类 可 分 性 公理 但 不 满足 样本 可 分 性 公理 ， 则 该 归 类 结果 是 重 羡 归 类 结果 。 如 
图 2.2 MR. X A 和 类 B 有 重合 , 其 重合 部 分 的 元 素 既 属于 A 类 又 属于 B 类 ， 
并 不 唯一 地 属于 一 个 类 , 因此 , 违反 了 类 可 分 性 公理 , 类 A 和 类 B 组 成 了 一 个 重 
BURAK. 

非 正则 归 类 结果 (improper categorization result): 如 果 一 个 归 类 结果 
不 满足 类 可 分 性 公理 , 则 该 归 类 结果 是 非 正则 归 类 结果 。 
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S 
图 2.2 重病 归 类 结果 


正则 归 类 结果 在 实际 机 器 学 习 中 很 常见 , 重 炙 归 类 结果 有 时 在 实际 应 用 中 也 
有 用 。 然而, 一 个 好 的 归 类 结果 不 会 是 非 正则 归 类 结果 。 一 个 非 正则 归 类 结果 意 
味 着 至 少 存在 一 个 空 类 。 当 给 定数 据 有 好 的 分 类 时 , 一 个 归 类 方法 不 希望 生成 非 
正则 归 类 结果 。 两 种 特殊 的 非 正 则 归 类 结果 定义 如 下 : 

重合 归 类 结果 (coincident categorization result): X} Y — (Yi, Yo, --- , Ye}, 
如 果 3i3ji z j)(Y; = 芒 )， 则 该 归 类 结果 是 重合 归 类 结果 。 

完全 重合 归 类 结果 | (totally coincident categorization result): X} Y = 
(Yi Yo, Yop, 如 果 vivj(Y; = Yj), 则 该 归 类 结果 是 完全 重合 归 类 结果 。 

类 似 地 , 根据 归 类 等 价 性 公理 , 划分 矩阵 可 分 为 下 面 几 类 ; 

正则 划分 (proper partition): U = [ua]cx v 是 正则 划分 , WR vk3ivj((j A 
i) — (uik > ug)) H. Vi3kVj((j A i) > (uik > ujk))o 

重合 划分 (overlapping partition): U = [urjexw EARS, WR 
3k3j(G # i) ^ (uik = Ujk = max, Uk)) H Vi3kvj((j z i) => (uik > Ujk) )o 

非 正 则 划分 (improper partition): U = [wxjexw 是 非 正则 划分 ， 如 果 
3ivk3j((j A i) ^ (uix S Ujk))e 

非 正 则 划分 包括 几 种 特殊 情形 : 

覆盖 (covering partition): U = [ui]... w 满足 3i3j(i F j)Vk(ui € ujk)» 
U = [uix]ex v. PREISE o 

重合 划分 (coincident partition): U = [uik]exw 满足 3i3j(i A j)Vk(ua, = 
uk)» U = [winlexn 称 作 重 合 划分 。 

无 信息 划分 (uninformative partition): Ur = [rr , Te]? @ dis 称 
作 无 信息 划分 , 其 中 @ 表示 Kronecker 乘积 , 1 表示 全 1 向 量 。 

绝对 无 信息 划分 (absolute uninformative partition): U.-1 = [c !].«w 
称 作 绝对 无 信息 划分 。 

当 一 个 归 类 结果 不 是 正则 的 ,理论 上 有 一 些 对 象 属于 两 个 或 更 多 的 类 。 即 ， 
一 些 对 象 处 于 一 些 类 的 边界 。 基 于 这 个 事实 , 下 面 给 出 边界 集 的 定义 。 
边界 集 (boundary set): WR 个 对 象 的 归 类 结果 为 (Y, V, Y, Simy)). 该 














22 机 器 学 习 : 从 公理 到 算法 





结果 的 边界 集 定义 为 
Bsimy (Y, Y, Simy) = {yr| | Ye |> 1} (2.1) 


其 中 , |Y | den Y 的 基 。 
边界 集 也 可 以 用 相 异 性 映射 定义 。 边 界 集 非 空 时 ， 归 类 结果 不 满足 样本 可 分 
性 公理 。 


2.4” 归 类 方法 设计 准则 


类 表示 公理 和 归 类 公理 总 共有 5 条 公理 。 其 中 类 表示 存在 公理 和 归 类 等 价 公 
理 是 必然 成 立 的 公理 。 原 因 如 下 : 类 表示 存在 公理 是 归 类 算法 能 够 设计 的 基础 ， 
仅仅 要 求 输入 输出 有 对 应 的 类 内 部 表示 。 如 果 输 入 输出 没有 类 的 内 部 表示 , 就 失 
去 了 学 习 内 容 的 内 涵 ， 学 习 自 然 无 从 进行 了 。 归 类 等 价 公 理 假 设 类 的 外 显 指称 与 
其 对 应 的 内 萄 指称 一 致 , 即 一 个 归 类 算法 的 外 显 功 能 与 其 内 部 实现 的 功能 应 该 相 
同 , 这 也 是 对 归 类 算法 甚至 是 对 一 般 算 法 的 期 望 。 否则 , 给 予 的 学 习 材 料 是 《红楼 
aS), 希望 学 到 的 内 涵 是 代数 几何 , 就 没有 实现 的 可 能 。 因此 , 设计 归 类 算法 真正 
需要 考虑 的 是 两 条 可 分 性 公理 和 类 表示 唯一 公理 。 

归 类 结果 满足 两 条 可 分 性 公理 是 最 低 要 求 , 是 归 类 结果 应 该 满足 的 底线 。 不 
满足 可 分 性 公理 的 归 类 结果 不 能 令 人 满意 , 但 是 只 满足 可 分 性 公理 也 不 可 能 保证 
其 是 理想 的 归 类 结果 。 理由 如 下 : 样本 可 分 性 公理 只 要 求 任意 一 个 对 象 只 有 一 个 
类 与 其 最 相似 , 但 是 可 能 还 存在 另外 的 类 与 其 相似 程度 也 很 高 。 比 如, 有 A, B, C, 
D 四 个 类 , 对象 x 与 类 A 的 相似 性 是 0.251, HA r 与 类 B 的 相似 性 是 0.25, 对 
f$ x 与 类 C 的 相似 性 也 是 0.25, 对 象 zx 与 类 DD 的 相似 性 是 0.249。 样本 可 分 性 公 
理 要 求 将 对 象 z 指派 到 与 其 具有 最 高 相似 度 的 类 A 中 , 但 仅仅 因为 最 相似 性 类 与 
次 相似 类 的 相似 程度 有 一 线 之 差 就 决定 类 别 归属 , 这样 的 归 类 显然 抗 噪 性 不 强 。 
样 的 分 析 对 于 类 可 分 性 公理 也 成 立 。 因此 , 仅仅 满足 可 分 性 公理 的 归 类 结果 有 
时 很 难 是 期 望 的 归 类 结果 。 实际 上 , 定理 2.1 和 定理 2.2 清楚 地 表明 了 类 可 分 性 公 
理 和 样本 可 分 性 公理 对 于 归 类 结果 的 要 求 之 松 。 因 此 , 可 分 性 公理 需要 增强 。 类 
表示 唯一 公理 要 求 三 个 等 式 成 立 , 对 于 归 类 结果 的 要 求 是 很 强 的 。 如 果 类 表示 唯 
一 公理 成 立 , 则 其 归 类 错误 率 为 零 , 其 要 求 太 高 ， 需 要 适当 放 低 。 

根据 以 上 的 分 析 , 可 以 给 出 归 类 方法 设计 的 三 个 准则 : 类 紧 致 性 准则 、 类 分 
离 性 准则 和 类 一 致 性 准则 。 但 是 , 在 设计 归 类 算法 的 时 候 , 这 三 条 设计 准则 彼此 
地 位 并 不 相同 。 这 是 由 于 三 条 设计 准则 依据 的 公理 在 归 类 问题 中 的 地 位 是 不 等 价 
的 。 首先 , 类 表示 唯一 公理 是 归 类 问题 的 最 强 约束 , 其 成 立 与 否 , 对 于 归 类 算法 的 
设计 影响 巨大 。 如 果 类 表示 唯一 公理 不 成 立 , 设计 归 类 算法 时 就 需要 首先 考虑 类 





可 
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一 致 性 准则 ， 以 便 使 得 类 表示 唯一 公理 尽 可 能 成 立 。 如 果 假 设 类 表示 唯一 公理 成 
立 ， 就 需要 考虑 类 紧 致 性 准则 和 类 分 离 性 准则 。 


2.4.1 ”类 一 致 性 准则 


如 果 一 个 归 类 算法 的 输入 为 (X,U, X, Simx), 其 输出 (Y, V, Y, Simy) 满足 类 
表示 唯一 公理 ， 则 归 类 结果 错误 率 为 零 。 然 而 ,类 表示 唯一 公理 一 般 不 能 保证 为 
EL, 即使 人 类 认 知 系统 也 难以 总 是 遵循 类 表示 唯一 性 公理 。 类 表示 唯一 性 公理 对 
归 类 是 一 个 非常 严格 的 要 求 。 通常 人 类 认 知 系统 尽 可 能 使 归 类 输入 输出 满足 类 
表示 唯一 性 公理 。 因 此 , 合理 的 归 类 准则 应 该 在 类 表示 唯一 性 公理 不 成 立 的 情况 
下 ,使 得 类 表示 唯一 公理 尽 可 能 近似 成 立 ,由 此 可 以 得 到 类 一 致 性 准则 。 

类 一 致 性 准则 (Categorization Consistency Principle): 如 果 类 表示 唯 
一 性 公理 不 成 立 , 一 个 好 的 归 类 结果 应 该 使 类 表示 唯一 性 公理 在 逼近 意义 下 尽 可 
能 成 立 。 

类 一 致 性 准则 可 以 用 来 设计 一 些 归 类 判 据 。 对 于 归 类 问题 来 说 ， 归 类 等 价 公 
理 必须 成 立 , 因此 , 类 表示 唯一 公理 中 的 三 个 约束 可 以 简化 成 两 个 。 于 是 , 类 一 致 
性 判 据 可 以 表示 成 如 下 形式 。 

类 一 致 性 判 据 (Categorization Consistency Criterion): Jg: (X, X, X)x 
(Y, Y, Y) 一 Ry, 称 作 类 一 致 性 判 据 ， 当 且 仅 当 Jg (X, X, X, Y, Ý, Y) 的 最 优 值 对 
应 着 使 得 (X, X) 和 (Y, Y) 之 间 具 有 最 小 误差 的 归 类 结果 。 

当 类 表示 唯一 性 公理 不 成 立时 , 无 论 类 数 是 几 , 类 一 致 性 判 据 是 归 类 算法 设 
计 的 首选 。 通常 情形 下 , 对 于 一 个 具体 的 学 习 问 题 , (XX, Simx) 与 (X, Simy) 不 能 
同时 已 知 。 设 计算 法 时 ，( 习 ,Simx ) 通常 用 (X, Simy) 逼近 或 者 代替 。 在 很 多 归 类 
算法 中 , 为 简单 计 ， 类 表示 唯一 性 公理 被 假设 为 真 但 实际 上 并 不 为 真 。 在 这 样 的 
假设 下 , 将 使 用 类 紧 致 性 准则 或 类 分 离 性 准则 来 设计 归 类 算法 。 下 面 讨论 类 紧 致 
性 准则 和 类 分 离 性 准则 。 


2.4.2 ”类 紧 致 性 准则 


遵守 样本 可 分 性 公理 只 是 归 类 结果 的 一 个 最 低 需 求 , 是 归 类 结果 应 该 满足 的 
归 类 底线 。 理论 上 , 对 于 好 的 归 类 结果 , 仅 遵 从 样本 可 分 性 公理 不 是 充分 条 件 。 一 
个 好 的 归 类 结果 应 该 尽 可 能 远离 归 类 底线 , 不 能 以 恰好 没有 突破 归 类 底线 为 设计 
标准 。 换 名 话说, 对 任意 对 象 , 其 最 相似 类 的 相似 程度 要 尽 可 能 大 于 其 次 相似 类 
的 相似 程度 。 一般 地 ,如 果 任 意 对 象 的 最 相似 类 的 相似 程度 越 大 ， 则 归 类 结果 越 
紧 致 。 因 此， 当 设 计 一 个 归 类 方法 时 , 类 紧 致 性 准则 可 表示 为 : 
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类 紧 致 性 准则 (Category Compactness Principle): 归 类 方法 应 该 使 其 
归 类 结果 尽 可 能 紧 致 。 更 详细 地 说 , 就 是 每 个 对 象 的 最 相似 类 与 其 次 相似 类 的 相 
似 度 差别 要 大 。 这 等 价 于 确保 一 个 对 象 和 它 所 属 类 具有 最 小 相 异 度 。 

根据 类 紧 致 性 准则 ， 紧 致 性 具有 最 大 化 类 内 相似 度 或 最 小 化 类 内 方差 两 种 表 
现形 式 。 

当然 ， 当 类 紧 致 性 定义 后 , 类 紧 致 性 准则 可 以 直接 用 来 设计 一 个 归 类 标准 。 
不 同 的 需求 产生 不 同 的 归 类 紧 致 性 判 据 定义 , 归 类 紧 致 性 判 据 的 常用 定义 如 下 。 

类 紧 致 性 判 据 (Category Compactness Criterion): 对 于 归 类 输入 ,Jc: 
UG U, X, Dsx) 5 Ry 称 为 类 紧 致 性 判 据 , 如果 Jo(X, V, X, Dsx) 的 最 优 值 对 应 
的 归 类 输入 有 最 大 的 类 紧 致 性 。 

对 于 归 类 结果 ，.Jc: (Y, V. Y, Dsy} 一 Ry 称 为 类 紧 致 性 判 据 ,， 如果 JolY,V, 
Y, Dsy) 的 最 优 值 对 应 的 归 类 结果 有 最 大 的 类 紧 致 性 。 

显然 ， 当 类 数 为 1 时 , 类 紧 致 性 准则 依然 成 立 。 原 因 很 简单 ， 一 个 理想 的 类 相 
似 性 映射 也 要 求 满足 类 紧 致 性 准则 。 

一 般 地 ， 如果 知道 类 相 异 性 映射 ,Jc( 关 ,U, 基 , Dsx) 可 以 表示 成 公式 (2.2): 


N [2 
Jc(X, U, X, Dsx) = 9 7 9 uinDsx (zy, Xi) (2.2) 


k=1 i=1 


Jc (Y, V, Y, Dsy) 可 以 表示 成 公式 (2.3): 


N ce 
JolY, V, Y, Dsy) = X 》 vinDsy (yr, Y.) (2.3) 
k=1 i=1 
除了 公式 (2.2) 和 公式 (2.3), 当然 也 可 以 有 其 他 的 表示 。 理论 上 , 符合 类 紧 致 
性 条 件 的 表示 是 很 多 的 。 
类 似 地 ， 如 果 知道 类 相似 性 映射 且 U,V ÆR Je(X, U, X, Simx) 可 以 
表示 成 公式 (2.4): 


N c 
Je(X,U, X, Simx) = [[ [[Simx (xx, X)" (2.4) 
k=1i=1 
Jo(¥,V,¥,Simy) 可 以 表示 成 公式 (2.5) 
N € 
Jc(Y, V. Y, Simy) = [[ Į [ Simy (v. Y2"* (2.5) 
k=1i=1 








HFE, Jo(X,V,X,Simx) 和 Jc(Y, V. Y, Simy) 也 可 以 有 其 他 表示 。 
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需要 指出 的 是 对 于 归 类 问题 , XX,Simx,Y,V,Y,Simy 经 常 属于 未 知 部 
分 。 通常 ， Simx 和 Simy 由 设计 者 根据 任务 需要 事先 给 定 ， 并 不 需要 学 习 。 
此 , X, Y. V,Y 常常 需要 学 习 。 当 应 用 类 紧 致 性 准则 设计 归 类 算法 时 , 一 般 假设 类 
唯一 性 公理 成 立 ,至 少 部 分 成 立 。 当 和 —Y 时 , 为 简单 计 , 除 要 求 革 二 了 之 外 ， 
甚至 假设 Simx = Simy 或 者 Dsx = Dsy。 这 种 假设 实际 上 比 类 表示 唯一 公理 
的 要 求 还 高 。 在 这 种 情况 下 , 可 以 利用 Jo(X,U, X, Sim) R# Je(X,U, X, Dsx) 
来 计算 工 。 原 因 很 简单 ， 此 时 Jc(X,U,X,Simx) = Jc(X,U,Y,Simy) 或 者 
Jc(X,U, X, Dsx) = Jo(X, U, Y, Dsy). 





2.4.3 ”类 分 离 性 准则 


如 果 归 类 结果 (Y, V, Y, Simy ) 满足 类 可 分 性 公理 , 则 v1 i AI < o Yi AY]. 
仅仅 满足 v1 iA I< GY z Y; PRESAR ER. 一 般 一 个 归 类 结果 
的 类 间距 离 越 大 越 好 。 

类 分 离 性 准则 (Category Separation Principle): 一 个 好 的 归 类 结果 应 该 
使 得 不 同类 表示 的 差异 最 大 。 

如 果 用 类 间距 离 表 示 不 同类 表示 的 差异 , 显然 类 分 离 性 准则 意味 着 归 类 方法 
要 定义 类 间距 离 , 类 间距 离 越 大 越 好 。 也 就 是 说 ， 归 类 方法 的 输出 结果 应 尽 可 能 
远离 违反 类 可 分 性 公理 的 情形 , 不 能 以 仅仅 满足 类 可 分 性 公理 为 满足 。 类 分 离 性 
准则 有 助 于 设计 度量 类 可 分 性 的 归 类 判 据 。 类 可 分 性 判 据 的 常用 定义 如 下 : 

类 分 离 性 判 据 (Category Separation Criterion): Js: (Y. V] x (Yi. Yo, 
Y.) o Ry 是 类 分 离 性 判 据 ,如果 Js(Y, V, Yi, Yo, Ye) 的 最 优 值 对 应 着 具有 最 
大 类 间距 离 的 归 类 结果 。 

类 分 离 性 判 据 可 以 用 来 判定 归 类 结果 远离 违反 类 可 分 性 公理 的 程度 , 甚至 可 
以 设计 归 类 算法 。 当 类 数 为 1 时 ,类 分 离 性 判 据 不 能 使 用 。 


2.4.4 奥 卡 姆 剃刀 准则 


对 于 一 个 具体 的 归 类 问题 , 可 能 存在 很 多 不 同 的 类 表示 模型 性 能 相近 ， 这些 
类 表示 模型 有 的 复杂 ,有 的 简单 。 而 类 紧 致 、 类 分 离 与 类 一 致 性 准则 都 是 从 具有 
同一 形式 的 类 表示 中 选取 其 中 具有 最 佳 参数 的 类 表示 ,并 没有 考虑 类 表示 自身 的 
复杂 度 问 题 , 因此 , 这 三 条 归 类 设计 准则 不 能 用 来 处 理 基 于 复杂 度 的 类 表示 选择 
问题 。 那么, 根据 什么 原则 , 才能 从 形式 不 同 复杂 度 差 异 极 大 的 类 表示 中 选 出 最 
适合 人 类 认 知 的 归 类 模型 ? 

历史 上 著名 的 奥 卡 姆 剃刀 COccam's razor) 准则 是 处 理 这 类 问题 的 基本 原 
则 。 该 准则 要 求 “ 如 无 必要 , 勿 增 实体 ”。 说 得 更 简单 一 点 , 对 于 性 能 相同 或 者 相 
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近 的 模型 或 理论 , 人们 偏爱 简单 的 那 一 个 。 也 就 是 说 , 对 一 个 归 类 问题 , 在 同样 有 
效 的 前 提 下 ， 人 们 应 该 选择 简单 的 归 类 模型 。 什 么 是 简单 的 归 类 模型 呢 ? 这 需要 
定义 类 表示 的 复杂 度 。 在 定义 了 类 表示 的 复杂 度 之 后 , 在 同样 的 性 能 条 件 下 ， 奥 
卡 姆 剃刀 准则 要 求 选择 复杂 度 最 小 的 类 表示 模型 。 需 要 特别 指出 的 是 ， 人 们 在 设 
计 各 种 机 器 学 习 算 法 时 都 是 遵循 奥 卡 姆 剃刀 准则 的 ， 从 来 没有 例外 。 只 是 ， 类 表 
示 复 杂 度 的 定义 需要 根据 情景 而 定 。 下 面 , 我 们 使 用 奥 卡 姆 剃刀 准则 来 研究 归 类 
模型 的 复杂 度 。 

在 不 考虑 学 习 任务 背景 要 求 的 情况 下 , 什么 是 简单 的 归 类 模型 呢 ? 这 时 可 以 
直接 考虑 归 类 问题 的 归 类 输入 (X,U, X, Sim) 和 对 应 的 归 类 输出 (Y, V, Y, Simy) 
的 复杂 性 。 因 此 , 归 类 输入 输出 表示 简单 的 模型 , 被 认为 是 相对 简单 的 模型 。 那 么 
怎么 定义 归 类 输出 输入 的 复杂 度 呢 ? 一 个 简单 的 方式 是 用 归 类 输入 输出 中 考虑 的 
元 组 数 来 定义 归 类 问题 的 复杂 度 。 理论 上 , 需要 考虑 的 元 组 数 越 多 ,对 应 的 归 类 
模型 越 复杂 。 对 于 单 源 数 据 学 习 来 说 , 最 复杂 的 归 类 模型 需要 考虑 的 元 组 数 多 达 
8 种 。 归 类 模型 考虑 的 元 组 数 越 少 , 越 简 单 。 

当 类 别 数 为 1 时 ,由 于 Vk = 1 F Yk, Eh = 1 ERA, 故 归 类 公理 对 于 单 
类 学 习 问 题 自然 成 立 。 对 于 单 类 学 习 问 题 , 一 般 不 必 考 虑 对 ( Simx, V, Simy) 的 
约束 条 件 , 而 只 需要 考虑 四 元 组 (X, X,Y, Y) 这 样 归 类 问题 的 表示 就 从 八 元 组 降 
为 四 元 组 , 因此 单 类 学 习 问 题 在 机 器 学 习 研 究 中 是 一 个 相对 简单 的 问题 , 在 本 书 
中 首先 论述 。 对 于 单 类 问题 来 说 , 最 简单 的 是 全 = 了， 此 时 只 需 考虑 三 元 组 。 而 
WRX 5Y 部 分 相同 、 部 分 不 同 但 和 与 了 的 维 数 相同 , 则 该 问题 更 复杂 一 些 。 
单 类 问题 中 , 最 复杂 的 情形 是 X 5 Y 的 维 数 都 不 同 , 这 时 归 类 模型 需要 考虑 四 
元 组 。 本 书 中 将 按照 这 个 次 序 , 对 单 类 问题 进行 分 析 论 述 。 

如 果 c > 1， 则 为 多 类 问题 。 此 时 归 类 公理 不 再 当然 成 立 。 在 最 一 般 的 情形 
F, 需要 考虑 八 元 组 (X,U, X, Simxy, Y, V, Y, Simy). JEN, WR X=Y, 则 可 以 
将 八 元 组 降低 , 因此 X = Y ALEX AY 更 为 简单 的 归 类 问题 。 因此 , 在 本 书 中 ， 
我 们 首先 讨论 X =Y 的 多 类 问题 , 然后 讨论 外 AY 的 多 类 问题 。 x =Y 时 ， 
如 果 假 设 归 类 公理 和 类 表示 唯一 公理 成 立时 , 显然 是 最 简单 的 情形 。 这 时 如 果 U 
已 经 知道 , 显然 类 表示 唯一 公理 不 可 能 成 立 , 否则 学 习 就 不 会 是 一 个 很 难 的 问题 
了 。 因 此 , U 未 知 比 已 知 要 简单 得 多 。 如 果 U 未 知 , 归 类 公理 和 类 表示 唯一 公理 
都 成 立 , 这 种 情形 下 ,只 需要 考虑 (X,U, X, Simx) 或 者 (Y,V,Y, Simy) 一 个 四 元 
组 就 够 了 ,此 时 对 应 的 是 聚 类 问题 。 

WRU OMA e» 1, 对 应 的 是 分 类 问题 , 则 复杂 得 多 。 考虑 到 归 类 等 价 公理 
总 是 成 立 , 由 于 站 已 经 知道 而 了 可 由 Simy 等 价 代替 ,对 于 (Y, V, Y, Simy) Hii 
考虑 (Y,Simy) 即 可 。 同样 的 , 对 于 (X,U, X, Simx), 只 需 考 虑 (X,U) 即 可 。 在 
此 情形 下 , 我 们 只 需 考虑 四 元 组 (X,U,Y, Simy) 即 可 , 但 注意 此 时 依然 要 输出 VV， 

















第 2 章 ” 归 类 理论 27 





因此 ， 要 考虑 五 元 组 。 此 时 ， 要 想 对 分 类 模型 进一步 简化 ， 就 必须 考虑 工 的 复杂 
HE. Y 的 不 同 复杂 度 在 一 定 意义 上 也 反映 了 分 类 算法 的 复杂 度 。 在 分 类 算法 论述 
方面 也 可 以 利用 奥 卡 姆 剃刀 准则 , 优先 介绍 简单 的 分 类 模型 ， 本 书 正 是 遵照 这 一 
基本 规则 进行 组 织 的 。 

根据 上 面 的 分 析 , 单 类 问题 比 多 类 问题 简单 ， 多 类 问题 中 , 输入 特征 与 输出 
特征 相同 比 不 同 要 简单 。 这 与 人 类 的 直觉 是 一 致 的 。 后面， 我们 将 根据 奥 卡 姆 剃 
刀 准 则 意义 下 的 模型 复杂 度 由 浅 入 深 地 逐步 讨论 归 类 模型 。 即 首先 讨论 单 类 问 
题 , 然后 讨论 多 类 问题 。 

在 本 章 中 , 假设 学 习 算 法 是 单 源 数据 输入 , 单 源 数据 输出 。 在 实际 应 用 中 , 学 
习 算法 输入 输出 都 不 一 定 是 单 源 的 。 一 般 意 义 上 , 机 器 学 习 不 特别 指明 , 是 指 单 
源 数据 学 习 。 理论 上 ， 类 表示 公理 与 归 类 公理 对 于 任意 学 习 算法 都 应 该 成 立 , 无 
论 是 单 源 数据 学 习 还 是 多 源 数 据 学 习 。 容 易 知 道 , 多 源 数 据 学 习 比 单 源 数据 学 习 
要 复杂 得 多 。 因 此 , 在 本 书 中 首先 讨论 单 源 数据 学 习 , 即 单 源 数据 输入 , 单 源 数 据 
输出 ; 在 最 后 的 章节 讨论 多 源 数 据 学 习 。 

最 后 ， 需 要 说 明 的 是 ， 虽 然 奥 卡 姆 剃刀 准则 可 以 在 归 类 的 意义 下 比较 机 器 学 
习 不 同 模型 的 复杂 度 , 但 是 在 设计 有 具体 的 学 习 算 法 时 ， 奥 卡 姆 剃刀 准则 并 不 能 独 
AEN, 一 般 与 其 他 归 类 设计 准则 一 起 使 用 。 这 一 点 与 其 他 归 类 设计 准则 非常 不 
同 ， 类 一 致 性 准则 、 类 紧 致 准则 和 类 分 离 性 准则 在 设计 学 习 算法 时 都 可 以 独立 
使 用 。 
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本 章 讨 论 了 归 类 问题 的 输入 输出 表示 以 及 有 关 的 约束 条 件 。 类 表示 公理 说 
明了 输入 输出 如 何 表示 , 以 及 输入 输出 之 间 的 约束 关系 。 归 类 公理 说 明了 归 类 输 
出 (或 者 输入 ) 自身 类 外 部 表示 与 类 内 部 表示 之 间 以 及 类 外 部 表示 自身 、 类 内 部 
表示 自身 应 该 满足 的 约束 条 件 。 其 中 , 样本 可 分 性 公理 规定 每 个 对 象 都 归 为 其 最 
相似 的 类 , 类 可 分 性 公理 规定 对 象 每 个 类 中 至 少 包含 一 个 对 象 与 其 最 相似 , 这 两 
个 公理 说 明了 “ 像 哪 类 ”的 问题 。 归 类 等 价 公理 说 明 “ 像 哪 类 ”与 “ 归 哪 类 ” 须 等 
Gr. 实践 上 , 归 类 公理 与 人 们 的 日 常 认 知 是 一 致 的 ， 如 样本 可 分 性 公理 与 认 知 科 
学 已 有 的 概念 表示 理论 是 一 致 的 。 现在 文献 中 常见 的 概念 表示 理论 有 经 典 理论 、 
原型 理论 、 样 例 理论 、 知 识 理论 等 。 概念 原型 理论 规定 : 一 个 对 象 归 为 4 类 而 不 
是 其 他 类 仅仅 因为 该 对 象 更 像 4 类 的 原型 表示 而 不 是 其 他 类 的 原型 表示 。 概念 样 
例 理 论 规定 : 一 个 对 象 归 为 4 类 而 不 是 其 他 类 仅仅 因为 该 对 象 更 像 4 类 的 样 例 
表示 而 不 是 其 他 类 的 样 例 表 示 。 显 然 , 样本 可 分 性 公理 是 上 述 理论 的 推广 形式 。 
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有 意思 的 是 ,本 章 提 出 的 类 表示 公理 与 归 类 公理 也 符合 人 们 的 日 常 对 话 原 
则 。 当 谈论 归 类 问题 时 ,如 果 将 (X,U, X, Simx) 5 (Y, V. Y, Simy) 当 作 两 个 人 的 
对 话 交 流 ， GER, (X,U, X, Simx) 是 说 者 的 归 类 表示 ，(Y, V, Y, Simy) 是 听 者 的 
归 类 表示 , 其 中 , X 是 说 者 对 类 中 对 象 的 特性 表示 (语音 、 图 画 、 手势 等 ), U 是 
说 者 对 对 象 的 类 外 部 表示 , X 是 说 者 对 对 象 所 在 类 的 认 知 表示 ,Simx 是 说 者 对 
对 象 与 其 所 关联 类 的 类 相似 性 映射 ,类似 地 , Y 是 听 者 的 对 类 中 对 象 的 特性 表 
AN GAT. RE, 手势 等 ), V 是 听 者 对 对 象 的 类 外 部 表示 , Y 是 听 者 对 对 象 所 在 
类 的 认 知 表示 , Simy 是 听 者 对 对 象 与 其 所 关联 类 的 类 相似 性 映射 。 为 清楚 地 说 明 
这 一 点 , 我 们 利用 本 章 的 理论 来 分 析 历 史上 一 个 著名 的 故事 : 高 山 流水 。 该 故事 
HA BREK o RIR). 原文 可 见 本 章 开篇 词 。 

伯 牙 志 在 太 山 ， 即 伯 牙 的 类 认 知 表示 X EAL, 其 对 于 外 界 是 不 见 的 。 伯 牙 
通过 弹琴 的 方式 将 他 认为 可 以 表示 太 山 的 音乐 表示 出 来 , 即 太 山 的 音乐 特性 表示 
为 外, 但 他 并 没有 将 太 山 的 类 外 部 表示 U 明示 出 来 。 钟 子 期 听 到 伯 牙 弹 奏 出 来 的 
音乐 和 之 后 , 做 出 归 类 判断 得 到 其 类 认 知 表示 五 ,其 通过 言语 的 方式 将 他 认为 可 
以 表示 太 山 的 词语 说 出 来 , 即 太 山 的 语音 特性 表示 为 YY， 当然, 这 样 的 语音 特性 
表示 归 类 为 V, 伯 牙 认可 钟 子 期 对 自己 的 音乐 归 类 , 认为 钟 子 期 对 自己 的 音乐 归 
类 与 自己 是 一 样 的 , Bl (X, x, X) = (Y.Y, Y) 成 立 , 是 自己 音乐 的 知音 。 这 样 看 
来 , 所 谓 高 山 流 水 遇 知 音 的 故事 ， 从 类 表示 理论 来 说 , 不 过 是 一 个 类 表示 唯一 公 
理 成 立 的 一 个 完美 实例 喷 了 。 如 果 在 对 话 中 ,类 表示 公理 不 成 立 , 伯 牙 是 难以 视 
钟 子 期 为 其 知音 的 。 

而 无 论 是 说 者 , 还 是 听 者 , 都 要 求 个 人 的 可 被 客观 观测 的 外 部 表示 (可 能 是 
自然 语言 , 也 可 能 是 其 他 语言 如 身体 语言 或 艺术 语言 等 ) 与 其 心里 的 难以 被 客观 
度量 的 内 在 表示 语义 一 致 , 这 就 是 Grice 于 1975 年 回 提出 的 对 话 质量 最 优 原则 : 
在 对 话 中 不 要 说 您 不 相信 的 。 这 实际 上 是 人 类 正确 交流 的 基本 要 求 ， 如 佛经 《 维 
摩 话 经 》 里 所 言 “ 直 心 是 道场 ”， 指 的 也 是 人 应 该 外 在 表现 与 内 心 一 致 。 这 也 正 是 
归 类 等 价 公理 所 要 求 的, 类 的 外 部 表示 与 其 内 部 表示 应 该 归 类 等 价 。 同 时 ， 对 话 
要 想 高 效 进 行 ，Grice 同时 提出 了 对 话 相 关 性 最 优 原则 : 对 话 双方 尽量 语义 相关 。 
当然 ,如果 语义 一 致 显然 最 好 。 类 表示 唯一 公理 要 求 输入 输出 归 类 语义 相同 ， 
此 , 日 常 对 话 如 果 高 效 正 常 进行 ,类 表示 公理 与 归 类 公理 必须 尽量 成 立 ， 至 少 是 
近似 成 立 。 

在 实际 生活 中 , 每 个 类 会 有 自己 的 名 字 , 并 不 是 一 个 抽象 的 数字 。 因此, 如果 
讨论 生活 中 的 归 类 问题 ， 需 要 讨论 类 的 名 字 。 同 时, 在 实际 生活 中 , 类 数 并 不 一 定 
知道 , 有 时 甚至 是 变化 的 , 同 理 , 实际 生活 中 的 对 象 也 不 一 定 固定 且 有 限 。 

根据 上 面 的 假设 ， 可 以 令 对 象 集合 O 含有 无 限 个 对 象 ， 其 对 应 的 类 集 
fr O 也 可 能 含有 无 限 对 象 ， 集 合 O 中 的 任意 对 象 o 对 应 类 集合 O 中 的 一 
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个 类 o。 对 象 集合 O 的 输入 特性 集合 全， 其 对 应 的 类 集合 O 的 输入 类 认 知 
表示 集合 X, WK o 的 输入 特性 表示 为 zx， 其 对 应 的 输入 类 认 知 表示 为 s 
对 象 集合 O 的 输出 特性 集合 站 ， 其 对 应 的 类 集合 O 的 输出 类 认 知 表示 集合 
Y, WE o 的 输出 特性 表示 为 y， 其 对 应 的 输出 类 认 知 表示 为 y。z RY 
的 隶属 度 记 为 u(z,z), y 属于 y 的 隶属 度 记 为 v(y,y), c 与 工 的 相似 度 记 为 
Simx(r,z), y 与 y 的 相似 度 记 为 Simy(y,y), HF u: X x X o Ry 是 隶属 度 
函数 当 且 仅 当 函数 u(z,z) 值 大 表示 z 隶属 于 zz 的 可 能 性 大 ， 函数 wu(z,z) fü 
小 表示 隶属 于 x 的 可 能 性 小 。 类似 的 ,可 以 定义 隶属 度 v。 类 表示 唯一 公理 
可 以 表示 为 : 如 果 一 个 对 象 o 的 归 类 输入 (z,w,z,Simx) 与 其 对 应 的 归 类 输出 
(y, v, y, Simy), W (z,z, 2) = (y, y, g). 其 中 : T = arg maxzex Simx (c, i), J = 
arg maXgey Simy (y, y); Z = arg maxsex u(x,t), 7 = arg maxgey v(y, y). 归 类 公 
理 可 以 表示 为 : Yr3z(z = 7); Vrdz(r = 1), Va(T = 2)。 H 

因此 ， 如 果 归 类 公理 成 立 ， 则 定理 2.3 成 立 , 即 Vr3z(z = zr)  Vrdzx(r = 
d). Vrdz(z = 2) 意味 着 每 个 对 象 省 有 其 名 , Yz3z(z = 习 意味 着 每 个 名 称 省 有 其 
指 。 关 于 这 个 问题 的 深入 讨论 , 一 个 简短 的 论述 可 以 见 参考 文献 [9]。 





延伸 阅读 


认 知 科学 中 关于 概念 表示 的 相关 研究 结果 ， 有 兴趣 的 读者 可 以 阅读 相关 文 
献 ， 如 文献 g。 

本 章 讨论 的 类 表示 公理 和 归 类 公理 , 实际 上 是 将 机 器 学 习 公 理化 的 一 种 尝 
iA. 这 种 尝试 的 出 发 点 是 将 学 习 算 法 的 输入 输出 看 做 一 次 对 话 , 输入 被 当 作 说 者 
一 方 , 输出 被 当 作 听 者 一 方 , 听 者 总 是 试图 理解 说 者 的 意图 。 如 果 听 者 完全 理解 
了 说 者 意图 即 为 学 习 成 功 。 因 此 , 在 进一步 的 讨论 里 , 这 样 的 思路 还 可 以 用 来 研 
究 人 类 对 话 的 数学 原理 。 一 个 简短 的 论述 可 以 参考 文献 0 特别 需要 指出 的 是 ， 
归 类 公理 是 由 著者 与 徐 宗 本 院士 合作 的 聚 类 公理 发 展 而 来 的 。 最 初 的 聚 类 公理 包 
含 了 样本 可 分 公理 、 类 可 分 公理 和 归 类 等 价 公 理 ， 当 时 的 表示 有 两 个 缺陷 一 个 
是 只 考虑 了 聚 类 结果 ,并 假设 了 X = 立 ， 而 自动 省 略 了 X: 另外 一 个 是 ,当初 的 
聚 类 公理 在 单 类 问题 时 恒 成 立 , 对 于 单 类 问题 没有 给 出 任何 有 效 的 约束 条 件 。 即 
使 推广 到 归 类 公理 , 克服 了 第 一 个 缺点 , 但 依然 有 第 二 个 缺陷 。 类 表示 公理 克服 
了 归 类 公理 的 第 二 个 缺陷 。 

依然 存在 的 问题 是 机 器 学 习 有 没有 不 是 归 类 问题 的 学 习 任 务 , 结论 是 没有 。 
这 里 只 给 出 一 个 简单 的 论证 , 其 基本 依据 是 : 概念 、 类、 模式 、 集合 、 词 这 些 术语 
异 名 而 同 指 。 更 重要 的 是 , 知识 自身 也 是 一 个 概念 。 这样, 任何 学 习 任务 都 可 以 归 
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结 为 归 类 任务 ， 归 类 任务 实际 上 是 学 习 问 题 的 另 一 个 名 称 而 已 。 





本 书 中 提出 的 机 器 学 习 公 理化 框架 关注 学 习 问题 的 表示 , 一 般 可 以 将 学 习 问 


题 推 进 到 学 习 算法 所 需要 的 目标 函数 。 如 何 优化 目标 函数 本 书 会 有 所 涉及 , 但 不 
是 论述 的 重点 , 虽然 对 于 机 器 学 习 来 说 , 最 优化 算法 是 一 个 绕 不 过 去 的 弯 , 但 最 
优化 本 身 并 不 是 机 器 学 习 。 本 书 假设 读者 有 基本 的 最 优化 理论 和 算法 基础 。 


在 本 书 以 后 的 章节 里 , 将 依据 本 章 提出 的 机 器 学 习 公 理化 对 常见 的 机 器 学 习 


问题 和 相关 算法 展开 全 新 的 论述 。 


jh, 


习 题 


.一 个 归 类 输入 (X,U, X, Simx) 满足 样本 可 分 性 公理 ， 试 证 明 其 充 要 条 件 是 


Vk(| arg max; Simx (zx, Xi)| = 1)« 


. 试 证 明 : 如 果 一 个 归 类 输入 (X,U, X, Simx) 满足 归 类 公理 , 则 有 : 


COD Vk3ivj(( z i) — (uik > ujr)); 
(2) Vi3kvj((j x i) — (uix > Mk))。 


. WEH: 如 果 一 个 归 类 输入 (X,U, X, Simx) 满足 归 类 等 价 公理 并 且 U 是 一 个 硬 划 分 ， 


则 样本 可 分 性 公理 与 类 可 分 性 公理 必 成 立 。 


. WEH: 如 果 一 个 归 类 输入 (X,U, X, Simx) 是 非 正则 的 ， 则 3ivk3j((j z i) A 


(Simx (zx, Xi) < Simx (zx, X5)))- 


. 试 证 明 : 如 果 一 个 归 类 输入 (X,U, X, Simx ) 满足 归 类 公理 , WA 


COD Vk3i Vj((j A i) > (Simx (zi, Xi) > Simx (zi, X;))); 
(2) Vidk Vj((j 4 i) — (Simx (zi, Xi) > Simx (zx, X;))); 
(3) Vk(arg max; uir = arg max; Simx (ax, Xi)). 


. 试 证 明 : 如 果 一 个 归 类 输入 (X,U, X, Dsx) 满足 归 类 公理 , WA 


(1) VEAi Vj(G # i) — (Dsx (£r, Xs) < Dsx(z X5): 
(2) Vidk Vj((j # i) — (Dsx (zx, Xi) < Dsx (zi, X5))); 
(3) Vk(arg max; uik = arg min; Dsx (£k, Xi))o 


. 试 证 明 : 如 果 vkvivj((j # i) 一 (Simy (yx, Yi) A Simy (yx, Y;))). WAHT 4p AE 


成 立 。 


. 试 证 明 : 如 果 归 类 输入 (X,U, X, Simx) 与 其 对 应 的 归 类 输出 (Y, VY, Simy ) 满足 归 类 


等 价 公理 , WAX —Y GFX AY. 


. 已 知 (X,U, X, Simx), it X. 其 中 , X = {x1,22,--- 76); 


0.1 0.9 0.1 0.1 06 0.3 
U=| 08 0 01 07 02 03 
01 0.1 08 02 0. 03 
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10. 令 对 象 集合 O 可 能 含有 无 限 个 对 象 , 其 对 应 的 类 集合 O 也 可 能 含有 无 限 对 象 , 集合 O 
中 的 任意 对 象 o 对 应 类 集合 O 中 的 一 个 类 o. 对象 集 合 O 的 输入 特性 集合 X. 其 对 应 的 
类 集合 O 的 输入 类 认 知 表示 集合 X, 对象 o 的 输入 特性 表示 为 z, 其 对 应 的 输入 类 认 知 
表示 为 r, 对 象 集合 O 的 输出 特性 集合 YY， 其 对 应 的 类 集合 O 的 输出 类 认 知 表示 集合 
Y, WR o 的 输出 特性 表示 为 y, 其 对 应 的 输出 类 认 知 表示 为 y。z 属于 z 的 隶属 度 记 为 
u(x, £); y 属于 yy 的 隶属 度 记 为 v(y,y), c 与 工 的 相似 度 记 为 Simx(z,z), y ^3 y 的 相似 
度 记 为 Simy(y, y). HEP u: X x X > Ry 是 隶属 度 函 数 , 满足 条 件 : 函数 以 (z,z) 值 增 
加 表示 z 隶属 于 x 的 可 能 性 增加 , RZ u(x, x) 值 减 少 表示 隶属 于 ac 的 可 能 性 减少 。 类似 
Jb, 可 以 定义 隶属 度 wu。 如 果 一 个 对 象 o 的 归 类 输入 (x,u, x, Simx) 与 其 对 应 的 归 类 输 
出 (y,v,y,Simy), WAX 2 Y &MfrT X =Y. 
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第 3 章 密度 估计 


桃李 不 言 ， 下 自 成 蹊 。 
一 一 《史记 。 李 将 军 传 》 


已 知 一 个 服从 密度 函数 p(z) 的 随机 变量 z 的 N 个 观测 acy, za, ws 但 
不 知 p(z)， 这 里 pla) 称 为 期 望 学 到 的 密度 函数 , 试 求 p(z)。 这 个 问题 称 为 密度 
估计 问题 。 假 设 学 到 的 密度 函数 为 2(z), 4 X =Y = {zi,z2,… yzN}, X = 
p(z), Y =pl) U = [1 1E V= [51 Eye 因此 , 密度 估计 问题 
可 以 看 作 具 有 归 类 输入 (X,U, X, Simx) 和 归 类 输出 (Y, V, Y, Simy) 的 归 类 问题 ， 
即 密度 估计 问题 是 单 类 归 类 问题 。 显 然 , p(z) 是 输入 类 表示 , p(z) 是 输出 类 表示 。 

由 于 密度 估计 是 单 类 问题 , HEC — V, 么 王立 。 对 于 密度 估计 问题 , X = VY 
一 般 不 成 立 。 因 此 ， 类 表示 唯一 公理 对 于 密度 估计 问题 不 成 立 。 但 是 为 了 简单 起 


-一 一 


见 ， 一般 假设 类 表示 唯一 公理 成 立 , BU p(z) = p(x)» BY p) 和 p(w) 未 知 ,首先 
需要 做 的 是 得 到 Bp(z)。 只 要 得 到 了 px), 也 就 得 到 了 p(z)。 如 果 知道 p(z) 的 部 分 
信息 ， 比 如 p(z) 属于 某 个 概率 分 布 族 , 计算 pr) 就 成 为 了 参数 估计 问题 。 如 果 除 


X 外 任何 有 关 pz(z) 的 信息 都 不 知道 , 此 时 计算 p(w) 就 是 非 参数 估计 问题 。 





3.1 ”密度 估计 的 参数 方法 


如 果 已 经 知道 p(z) MERIR pleo), 此 时 的 密度 估计 问题 变 成 估计 9。 
简单 说 来 ， 此 时 即 为 密度 估计 的 参数 方法 。 在 此 情形 下 , X = 9，Simx(z;b) = 
pc). 假设 对 9 得 到 估计 Â, WT Y =Ê, Simy(z,6) = p(a|d). 


3.1.1 ”最 大 似 然 估计 


在 此 情形 下 , 如 果 对 于 9 的 信息 一 无 所 知 , 则 可 以 假设 对 9 得 到 估计 Â, Y = 
6, Simy (x, Ô) = p(z|9)。 因 此, 类 紧 致 准则 希望 最 大 类 内 相似 度 , 由 此 得 到 目标 函 
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数 (3.1)。 显然 
N N 


mx I Simy (zx,0) = EX. Lrt) (3.1) 


为 了 简化 计算 , 对 公式 (3.1) 两 边 取 负 自 然 对 数 , 求 最 大 变 为 求 最 小 , 得 到 如 
下 目标 函数 : 
N N 
min 》 — In(Simy (zx, 6)) = min 7 —In(p(zx|0)) (3.2) 
9 ki 9 ka 
显然 , 最 大 化 目标 函数 (3.1) 是 最 大 似 然 估 计 。 因 此 , 类 紧 致 准则 可 以 导出 常 
见 的 最 大 似 然 估计 。 


。 高 斯 密度 估计 





假设 Vk, acy € RP,x € RP, p(z|0) 





1 1 (x — À) (x — A) 
ajra P | 2 ô | 
其 中 6 = {1,62?}。 根据 公式 (3.2), 我 们 可 以 得 到 如 下 目标 函数 (3.3): 


N N -— 
L => -InPlaxl)) => (S (E Hy ei(V/Gxyem) ^ (33) 
k=1 k=1 





oP 


因此 , 计算 目标 函数 (3.3) 的 一 阶 导数 , 令 其 等 于 零 可 以 得 到 最 优 估 计 6。 


N 
ae 




















aL N (3.4) 
— = -pX |z — ĝl a?! + Npà^-—0 
Oa 2; d 
解 方程 (3.4), 可 以 得 到 
2d T 
â=) UN 
Kt 
e lex — Al? i 
GP = Tk— H 
oN 
" 1 1 ae ] . . o. 
 plxld) = exp |- 1e -ATS 72] 其 中 6= (0,5), 
(2x)? det(S) 


按照 以 上 的 办 法 , 同样 可 以 得 出 6 的 估计 。 
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。 n 元 多 项 分 布 估计 

假设 Vk uy c 都 是 只 取 1,2,… ,c 其 中 之 一 的 随机 变量 ， 如 果 pll) = 
IL, AP z = [lisi] Ô = (uf s] VE e {0,1} OL = 
i—1 


i=l 


L Vi, fi € [0,1] IFA Y2 f; — 1. HM, Vk, arg, 可 以 表示 成 一 个 c 维 的 0, 1 的 向 





i—1 
fit, 这 里 , 如果 n = i, 则 记 作 (we); — 1, 否则 (n); = 0。 显然 , VE, Y (rg) = 1, 
i=1 
因此 , 可 以 知道 Y) YS (x), =N 
k=1i=1 
据 公式 (3.2), 我 们 可 以 得 到 如 下 目标 函数 (3.6): 
N . N € 
L- 人 (zx 的) 一 一 >》 3 (ae): ni (3.6) 
k=1 | 3-1 


根据 拉 格 朗 日 乘 子 法 ， 要 得 到 目标 函数 (3.6) 在 Yo = 1 条件 下 的 最 小 值 ， 
=? 
只 需 令 如 下 函数 (3.7) 的 一 阶 导数 为 零 : 


L«X(Y2R-1)- E» Tk); iR eX -1) (3.7) 











k=1 i=1 
由 此 得 到 方程 (3.8): 
et e) -— 
ae i (3.8) 


HERE Y = 1 Vk, Xt zy) — 1， 由 方程 (3.8) 可 以 得 到 入 = N. 
据 此 ， 解 方程 (3.8) 可 以 得 到 如 下 估计 ， 





a= 9 (3.9) 


3.1.2 ” 贝 叶 斯 估计 


需要 特别 指出 的 是 , 在 参数 估计 情形 下 , 类 可 以 用 9 来 表示 。 有 时 候 , 基于 历 
RA, 人 们 不 仅 知道 分 布 的 形式 , 甚至 会 对 9 的 信息 有 所 了 解 。 比 如 ， 当 谈 到 许 
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海峰 的 手枪 射击 成 绩 时 ， 人 们 会 有 先 验 估计 ; 当 谈 起 烟台 苹果 莱阳 梨 ， 人 们 一 般 
也 会 有 先 验 印象 。 甚至 朋友 交往 , 第 一 印象 也 对 人 们 后 续 交 往 影 响 巨 大 。 实 际 上 ， 
日 常 所 说 的 声誉 , 就 是 一 种 对 于 事物 的 先 验 印象 。 如 果 9 的 信息 完全 确定 , 就 不 
需要 通过 观察 抽样 样本 来 估计 了 , 或 者 说 观察 已 经 影响 不 了 人 们 对 于 9 的 信息 。 
这 近似 于 信仰 或 者 崇拜 。 

一 般 情形 下 ， 人 们 对 于 9 的 信息 有 所 了 解 , 但 是 该 信息 会 随 着 观察 的 积累 增 
多 而 改变 , 具有 不 确定 性 。 因此, 对 9 的 信息 先 验 了 解 程度 , 可 以 用 假设 9 服从 
p(9|90) 分 布 来 表示 , p(9|90) 反映 了 人 们 对 于 9 的 了 解 程度 go 是 事先 确定 的 值 。 
换 一 种 说 法 , p(9|90) 反映 了 9 与 固定 值 go 的 相似 度 , BN Sim(9, 0) = p(9|90)。 理 
WWE, 应 该 选择 与 固定 值 bo 最 相似 的 9 值 。 如 果 无 限 相 似 , 即 变 成 信仰 ， 此 时 观 
察 改 变 不 了 9 的 估计 。 如 果 不 是 无 限 相似 , 则 观察 可 以 改变 对 于 9 的 估计 。 

假设 对 9 得 到 估计 Â, 根据 以 上 的 分 析 , 设立 = 06，Simy(z,6) = p(zl0)， 
Sim(6, 90) = p(blbo)。 因 此 ， 类 紧 致 准则 希望 最 大 类 内 相似 度 ， 由 此 得 到 目标 函 
数 (3.1)。 同 时 ,如 果 假 设 输 入 类 表示 为 00， 类 一 致 性 准则 要 求 考虑 最 大 化 如 下 约 
X (3.10): 








max Sim(6, 09) = max p(0|00) (3.10) 
6 6 


这 是 一 个 典型 的 多 目标 函数 优化 问题 。 一 个 自然 的 想法 是 合成 为 单 目标 函数 优化 
问题 。 
由 此 , 综合 考虑 类 一 致 性 准则 和 类 紧 致 性 准则 , 应 该 最 大 化 目标 函数 (3.11): 


N N 
Sim(6, 6) [ [ Simy (xx, ô) = (6169) [ [ Plô) (3.11) 


k=1 =i 


m 


显然 , 如 果 只 最 大 化 目标 函数 (3.10), 则 与 观察 数据 无 关 。 如 果 先 验 随 着 观察 数据 
的 增加 而 不 同 , 最 大 化 目标 函数 (3.11) 即 是 常见 的 贝 叶 斯 估计 。 因 此 ， 类 紧 致 准 
则 与 贝 叶 斯 估计 也 联系 密切 。 


。 高 斯 密度 的 贝 叶 斯 估计 


假设 Vk, zk € Rr,z € RP, p(x|ô) 








1 1 (z - À)T (e — A) 
Janae ho 39 p 
— AT (uo — f 
Kp 6 = {71,6}. Sim(, 69) 2 p(8|8o) us exp iu ° 2 2 9] ; 
其 中 bo = (uo, 00" )- 


根据 公式 (3.11), 应 该 最 小 化 目标 函数 (3.12): 
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L = 一 In(p(blbo)) + 》 — In(p(zxl6)) 








in ( 1 eS uc) 


vamos! 2 o 
+5 (A (ER A) icu rem) 


OP 
k=1 














N 
OL Ho — ft zy — ft 
0 
Of 2p > oP ) 


OL api pen 
3 = 22. ler A t+ Npô™ = 0 
k=1 


解 方程 (3.13)， 可 以 得 到 














因此 , 计算 目标 函数 (3.12) 的 一 阶 导数 , 令 其 等 于 零 可 以 得 到 最 优 估计 6。 


(3.12) 


(3.13) 


(3.14) 


如 果 p(z| 辣 exp [- F(a], Jh 0 = fa, $) 按 


(2n)Pdet(S) 
照 以 上 的 办 法 , 同样 可 以 得 出 6 的 估计 。 





e n 元 多 项 分 布 的 贝 叶 斯 估计 


假设 Vk zk;z 都 是 只 取 1,2,… ,c 其 中 之 一 的 随机 变量 ， 如 果 plô) = 
IL £^, HEP a = ,12,… ;1,6 = (fg Vil € {0,1}, OU = 1, 
i—1 i=1 


Vi, bi € [0,1] JFL Y: f — 1. 易 知 , VE,zkz 可 以 表示 成 一 个 < 维 的 0, 工 向 量 , 这 
í—1 





里 ,如果 z = i, 则 记 作 (we): = 1, 否则 (ng); — 0. BAR, Vk, (xe) = 1, 
i—1 


因此 ， 
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可 以 知道 于 (we): = N。Sim(b.6 (2r T(oo) pot, 
E EU (6.4) = plo) = TF Tay IIR 

" 1 一 ai 1 一 ae € 

HEE Ay lox pa eus PL 





根据 公式 (3.11), 应 该 最 小 化 如 下 目标 函数 (3.15): 


L=-In "GUN Hs po 3 —In(p(rx|9)) 
= (3.15) 


一 InT(ao) + (nF (ax) + (1 —a,)Inp;) — 3 Y Gh Ini 
l LE i 
根据 拉 格 朗 日 乘 子 法 ,要 得 到 目标 函数 (3.15) 在 EA 二 1 条 件 下 的 最 小 值 ， 
1 
只 需 令 如 下 函数 (3.16) 的 一 阶 导数 为 零 。 


c++X(28-) 


N 
= — InI(ao (ey II Inf) — >> X (en)ilnB (3-16) 











el k=1 i=1 
+ X vA - 1) 
由 此 得 到 方程 (3.17)。 
e(z-X(55 -1) 
o 1 x: ys ci -A=0 (3.17) 





解 方程 (3.17) 可 以 得 到 如 下 估计 : 


o 一 工 十 X (ar): 


去 k=1 
= 3.18 
Pe N+ao—c ( ) 


Teo) i pt! y Dirichlet 分 布 , 其 


DEC ,pe 013°: 00) = Ta). Fo) | i} 


mpi =1, Vp; > 0, Vos > 0. 
i—1 
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3.2 ”密度 估计 的 非 参 数 方法 


除 观 测 样本 x1, z2,…, zw 以 外 , 如 果 对 于 p(z) 一 无 所 知 但 却 需 要 估计 p(x), 
此 时 的 密度 估计 问题 即 为 非 参数 方法 。 





3.2.1 直方 图 

最 简单 的 方式 是 利用 极限 的 思想 , 将 空间 划分 成 合适 的 区 域 , 通过 统计 区 域 
内 的 密度 来 得 到 克 z)。 这 种 方法 称 为 直方 图 密度 估计 方法 。 假设 将 样本 所 在 空间 
划分 成 一 些 等 大 的 紧 致 非 空 区 域 。 假设 x 所 在 的 区 域内 含有 Le 个 观测 样本 , 区 域 


体积 为 V。 对 于 空间 中 的 任意 一 个 点 z， 如 果 其 位 于 Va 区 域内 , 可 以 得 到 密度 估 
计 (3.19): 

ss iL 

p(x) = FSG (3.19) 


根据 类 表示 唯一 性 公理 , 我 们 希望 至 少 p(z) ze p(x). 统计 学 家 已 经 证 明 两 者 
近似 成 立 的 条 件 , 但 是 这 些 条 件 过 于 理论 化 , 对 于 实际 应 用 只 具有 启发 意义 。 有 
兴趣 的 读者 可 以 参考 文献 [1] 的 相关 章节 。 

需要 指出 的 是 , 当 V 越 来 越 小 时 ,密度 估计 (3.19) 就 退化 为 (3.20): 


zx o DRE 
P(x) = x 2 oe — n) (3.20) 
k=1 


其 中 , 4a £0, d(x) =0; 4a =0, 6(z) 取 值 无 穷 大 , 但 其 积分 为 1。 因此 , 可 以 
知道 , 基于 直方 图 的 密度 估计 的 优点 是 计算 简单 ， 缺 点 是 估计 的 函数 不 连续 。 没 
有 样本 点 的 区 域 密度 估计 直接 为 零 , 有 样本 点 的 区 域 密度 估计 很 大 ， 显然 误差 很 
Ko KIE, 需要 考虑 更 加 复杂 的 密度 估计 方法 。 

但 是 ， 有 时 候 随 机 变量 c 本 身 是 离散 变量 , 此 时 可 以 用 直方 图 方法 来 估计 
P(xz)« 

对 于 直方 图 来 说 , 其 样本 的 输入 特征 维 数 不 能 太 高 , 一 般 限定 在 三 维 以 下 ， 
常用 的 为 一 维 。 这 是 因为 假设 每 维 划 定 为 10 个 等 大 区 域 , W p 维 所 形成 的 区 域 数 
目 为 10?。 由 于 区 域 数据 随 维 数 指数 倍增 长 , 在 很 多 区 域 会 没有 样本 , 或 者 样本 极 
D>, 这 就 会 导致 密度 估计 极 不 准确 , 也 就 是 所 谓 的 维 数 灾难 问题 。 为 了 避免 维 数 
灾难 ,直方 图 方法 只 适用 于 低 维 问题 。 








3.2.2 Ree ait 
直方 图 法 虽然 直观 简单 ,但 是 由 于 样本 数据 始终 有 限 ,， AU SBS EI pac) 
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间断 不 连续 , 与 生活 常识 不 符 。 为 了 使 B(z) 连续 , 每 个 观测 样本 对 密度 的 影响 也 
应 该 是 连续 的 , 其 对 密度 的 影响 力 应 该 随 着 距离 的 增加 而 平滑 减 小 。 由 此 得 到 核 
密度 估计 公式 (3.21): 





o= Ya 2) (3.21) 
其 中 参数 h 称 为 带宽 , K(x) ARR, WMR K(x) 满足 条 件 (3.22): 
Ka >0, | K(e)de = 1 
[eroa =0 (8.22) 
[itas » 0 


常用 的 核 函数 如 下 。 
Epanechnikov E: K(x) = 3 —z2)I(lz| < 1) 
E, 


高 斯 核 : K(x) = Ju ( 一 =) 


3.2.3 K 近邻 密度 估计 法 


在 直方 图 密度 估计 方法 中 , 每 个 区 域 的 大 小 恒定 , 区 域内 的 点 变化 很 大 , 最 
终 导致 密度 估计 也 变化 剧烈 。 因 此 , 一 个 更 加 合理 的 方法 是 固定 划分 区 域内 的 样 
本 点 个 数 为 KK, 划分 区 域 的 体积 大 小 自 适 应 确定 。 这 种 方法 称 为 天 近邻 密度 估计 
法 。 根据 以 上 的 分 析 , 假设 xz 所 在 的 天 近邻 区 域 的 区 域 体积 为 Vk 含有 天 个 与 
其 最 近 的 样本 。 由 此 ,可 以 得 到 天 近邻 密度 估计 (3.23): 
K 


D(x) = NxVky (3.23) 


延伸 阅读 


本 章 介绍 了 几 种 常见 的 密度 估计 方法 。 根据 类 表示 唯一 公理 可 知 , 一 个 自然 
的 期 望 是 密度 估计 与 实际 的 密度 相同 。 可 惜 的 是 ,这 只 是 一 个 先 验 假设 。 在 什么 
情况 下 , 类 表示 唯一 公理 对 于 密度 估计 问题 成 立 呢 ? 统计 学 家 已 经 对 这 个 问题 研 
究 了 很 多 年 , 给 出 了 两 者 理论 逼近 的 条 件 ， 感 兴趣 的 读者 可 以 阅读 参考 文献 [2]。 
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对 于 以 概率 为 基础 的 机 器 学 习 算法 来 说 , 密度 估计 几乎 是 最 重要 的 基础 章 
W, 甚至 有 统计 学 家 认为 机 器 学 习 不 过 是 概率 统计 的 变种 。 当 然 , 现实 中 , 既 存 在 
许多 在 学 习 阶 段 考 虑 概率 的 机 器 学 习 算法 , 也 存在 许多 在 学 习 阶段 并 不 考虑 概率 
的 机 器 学 习 算 法 。 但 是 , 无 论 什么 样 的 学 习 算法 ， 其 测试 阶段 都 需要 概率 统计 来 
估计 学 习 算 法 的 性 能 。 因 此 ， 密 度 估计 可 以 说 是 机 器 学 习 中 最 为 基础 的 学 习 问题 
Y dT 

需要 指出 的 是 ,使 用 本 书 提出 的 机 器 学 习 公理 化 框架 来 推导 最 大 似 然 估计 或 
贝 叶 斯 估计 时 ， 并 不 需要 统计 学 中 的 独立 同 分 布 条 件 Gid 条 件 ) 成 立 , 极 大 放松 
了 对 数据 的 分 布 假设 要 求 。 但 是 , 在 没有 独立 同 分 布 条 件 下 ， 如何 保证 类 表示 唯 
一 性 公理 成 立 ? 这 对 于 密度 估计 来 说 ,是 一 个 需要 解决 的 新 理论 问题 ,也 是 值得 
研究 的 新 理论 问题 。 


习 题 
1. 试 设计 一 个 不 同 于 高 斯 核 和 Epanechnikov 核 的 核 函 数 。 
1 


2. 如 果 N 个 独立 的 观测 样本 ai, £2, s, mw 服从 概率 密度 p(z|6) = Jer aE 


exp [ 一 jc =u) E (e w|, 试 估计 9 = {u, E} 


参考 文献 
[1] Duda R O, Hart P E, Stork D G. Pattern classification. New York: John Wiley & Sons, 
2012. 


[2] Silverman B W. Density estimation for statistics and data analysis. New York: Chap- 
man & Hall/CR, 1986. 


第 4 章 [sg 归 


AGERE. AERA. 
一 一 《周易 。 泰 》 


BHI x = (ê, f(2)) 的 N 个 观测 值 (s f 8), (os f(a), ++, (ên, FEN), 
但 不 知 Ce, f(2)). XX HL f 称 为 期 望 回归 函数 , WOR Ge, (2)), 这 个 问题 为 回归 问 
E. TA, (2, f(2)) 只 表示 一 个 类 。 因此, U = V 自然 成 立 , 可 以 不 予 考虑 。 假设 
学 到 的 输出 类 内 部 表示 为 (2, F(2)), 其 中 古称 为 学 到 的 回归 函数 。 


21 f(#) di Fn) 
ex- | fé) y= | FE | x= afar 
By fu) ên F(én) 


(@,F(@)), 其 中 已 是 回归 函数 , U = [LLL V = [1,1,… ,1]Bws À 
知 , 回归 的 输入 可 以 表示 为 (X,U, X, Dsx), 其 输出 可 以 表示 为 (Y, V, Y, Dsy). Al 
此 , 回归 也 可 以 看 作 单 类 归 类 问题 。 

由 于 所 有 点 都 属于 同一 类 , HET HAV HX =. 但 是 ,一 般 情况 下 , X 
工 。 故 类 表示 唯一 公理 不 成 立 。 根 据 类 一 致 性 准则 , 一 个 好 的 类 表示 工 应 该 最 小 
化 目标 函数 (4.1): 





L=D(X,Y) = D(f(2),F(z)) (4.1) 
由 于 f 未 知 ,直接 计算 D(f (2), F(2)) 是 不 可 能 的 。 但 是 , 由 于 知道 二 的 NR 
本 值 , 可 以 近似 估计 D(F), F(2)). SR. D(f (5), F(&)) 的 不 同 近似 估计 将 导出 
不 同 的 回归 模型 。 通常 可 以 定义 D(f(£), F(2)) = S [F (x) — F (êr)? 
k=1 

















4.1 线性 回归 


回归 函数 可 以 选择 的 表示 很 多 。 但 是 根据 奥 卡 姆 剃刀 准则 , 应 该 选择 简单 而 
又 可 行 的 回归 函数 。 显 然 , 如 果 可 行 , 线性 函数 是 最 简单 的 回归 函数 。 当 回归 函数 
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五 采用 线性 模型 表示 时 , 我 们 称 该 类 模型 为 线性 回归 (linear regression). Aul 4.1 
所 示 的 简单 一 元 线性 回归 模型 ,图 中 圆圈 表示 数据 点 ,一 元 线性 回归 就 是 求 图 中 
的 直线 , 这 条 直线 能 够 较 好 地 表示 输入 数据 和 输出 数据 的 关系 。 一 元 线性 方程 有 
如 下 形式 : 





F(é) =wi+b (4.2) 
其 中 , 系数 w, b € 民 称 为 回归 系数 (regression coefficient), 根据 类 一 致 性 准则 , 为 
了 最 小 化 D(f(X), F(X)), 最 常用 的 方法 是 采用 最 小 二 乘 的 形式 , 所 以 , 一 元 线 
性 回归 函数 的 损失 函数 为 : 





1 N 
D(f(X), F(X)) = L(w,b) = xc 5 (wêr +b- ft) (43) 
k=1 
其 中 fêr) € RW dy 对 应 的 观测 值 , 此 时 , 求解 一 元 线性 回归 函数 的 问题 转化 为 
一 个 优化 问题 , 即 求解 ; 


N 
arg min L(w,b) — = arg min zy 1 NÈ wêr +b— f(£x))? (4.4) 
? NT 





图 4.1 一 元 线性 回归 示意 图 


为 了 最 优化 目标 函数 (4.4), 对 5 和 w 求 偏 导 , 令 导 数 为 零 ， 即 : 
OL(w, b) 0 OL(w,b) 











Ob ” ðw (25) 
可 求 得 : 
N 
2 taf (ex) - Nag 
w= =o 
35 22— N7? (6) 
k=1 
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rig Ër pof) 
spam oH, pode. 


例 4.1 假设 我 们 试图 对 某 一 社区 中 个 人 的 受 教育 程度 OB. UO 对 年 平 
均 收 入 (用 f(2) 表示 ) 的 影响 进行 研究 。 我 们 从 该 社区 中 随机 收集 到 11 名 个 体 
的 受 教育 年 限 (单位 : 年 ) 和 年 平均 收入 (单位 : 千 元 ) 数据 ( 见 表 4.1)。 请 利用 
该 数据 判断 最 佳 线 性 回归 模型 。( 精 确 到 小 数 点 后 两 位 》 





表 4.1 RNE 11 名 个 人 的 年 平均 收入 与 受 教育 年 限 
受 教育 年 限 人 /年 6/10|9|9  16|12| 16 | 5| 10| 12 | 8 
年 平均 收入 j(2)/ 干 元 | 5 | 7 | 6] 6} 9 | 18} 13 | 5 | 10 | 12 | 10 





解 ” 因 为 已 知 数据 只 有 一 个 输入 特征 , 所 以 设 回归 函数 为 y = wz t+ b. 利用 
式 (4.6), 计算 各 分 量 。 由 表 4.1 可 得 : 


Z=(6+10+9+9+16+12+16+5 + 10+ 12+ 8)/11 = 10.27 


F=(5+7+6+6+9+8+13+5+ 10+ 12+ 10)/11 = 8.27 
11 


>》 te f (x) =6 x 5410 x 7+--- +8 x 10 = 1005 (4.7) 
k=1 





osi = 6 + 10? +--- +8? = 1287 


























k=1 
所 以 ， 
21 H 
Muf) — EF 
ki 1005 — 11 x 10.27 x 8.27 70.74 
w 5 0.56 
= 1287 — 11 x 10.27 126.80 (4.8) 
3 i-z à 
k=1 
b = f — wā = 8.27 — 0.56 x 10.27 = 2.52 
故 所 求 的 线性 回归 方程 为 : 
F(&) = 0.56% + 2.52 (4.9) 


46 机 器 学 习 : 从 公理 到 算法 





当 输 入 数据 有 个 特征 时 , 给 定 如 下 方程 进行 数据 拟 合 
F(@)=wtt+b (4.10) 
Hon z AAW ps, we RP 为 方程 系数 ,5 为 截 距 。 为 了 最 小 化 
DD(f(X),F( 久 )), 最 常用 的 方法 是 采用 最 小 二 乘 的 形式 。 对 于 N 个 样本 ， 则 给 定 
误差 平方 为 
N 


D(f(X), F(X)) = Y (F (êr) — Fé)? = Dey —wlt,—b)? (411) 


k=1 


为 了 表示 方便 , 令 4 为 (p 十 1) x N WMA BTW 1 的 向 量 ，4 的 第 
二 行 至 p 十 1 行 数据 对 应 于 训练 数据 的 输入 ，B € RN 为 N 个 训练 数据 的 输 
tH, w, = (b wT)T € RPH, Mist (4.11) 可 写成 如 下 形式 


L(w,) = (wFA — BT)(w? A — BT)? = wFAATw, — 2BTATw, + BTB (4.12) 


最 小 化 上 式 求解 ws 就 是 对 w 求 偏 导 数 ， 有 











OL(w,) T 
Dun = 2AATw, -2AB =0 (4.13) 
Fi 4 HITEK, 则 AAT 为 正定 矩阵 ,因此 可 求 得 ws 的 闭 式 解 为 : 
w, = (AAT)-1AB (4.14) 


以 上 介绍 的 回归 模型 输出 只 有 一 个 一 元 变量 。 当 输出 本 身 就 是 多 个 Cd 个 ) 一 
元 变量 , 会 获得 如 下 的 线性 模型 


BT=WTA (4.15) 
其 中 B e 了 RNxa 为 输出 矩阵 ，4 e RG*0*N 为 输入 矩阵 ， 并 且 其 第 一 行为 全 


1, W e Ro*0x4 Jj OB. 为 了 最 小 化 D(f (X), F(X)), 与 式 (4.11) 的 形式 类 
Wh, 有 


D(f(X), FO) = IG- F(&)|? 


iv 4.16 
= lf) — WT, ag)" |? re 


= trace[(BT — WT AJ (BT — W7A)] 


第 4 章 回归 AT 





通过 对 W 求 导 , 可 以 获得 其 闭 式 解 为 
W = (AAT)-!AB (4.17) 


线性 回归 模型 是 最 简单 的 回归 模型 ， 可 以 很 简单 地 扩充 成 广义 线性 模型 ， 如 
F(&) = g(wT£ +b), g 是 一 个 可 逆 的 单调 函数 。 比 较 常 用 的 是 对 数 线性 回归 , 此 
时 , Vk, f(x) > 0,9() = exp()。 


4.2 上 岭 回 归 


线性 回归 可 以 计算 (w, b) 的 条 件 是 矩阵 (AAT) 可 逆 。 但 是 很 多 情况 下 , 矩阵 
不 可 道 。 特 别 是 当 N « pin, 天 阵 肯定 不 可 逆 。 此 时 ,传统 线性 回归 会 出 现 自 变 
量 间 存在 严重 的 线性 相关 的 情况 。 当 自 变量 间 存 在 线性 相关 时 ， 使 用 线性 回归 模 
型 将 很 难 估计 回归 系数 且 系数 的 估计 方差 会 变 得 很 大 ,这 表现 为 当 得 到 很 大 的 正 
系数 项 时 ， 都 可 被 一 个 同样 大 的 与 之 相关 的 负 系 数 项 相抵 消 。 在 此 情形 下 ， 能 够 
最 小 化 目标 函数 (4.1) 的 (w, b) 值 有 时 不 唯一 , 甚至 会 非常 之 多 , 这 种 情形 被 Leo 
Breiman 称 之 为 罗 生 门 现象 回 。 罗 生 门 现象 与 类 表示 唯一 公理 矛盾 。 如 何 解决 罗 
生 门 现象 , 从 最 小 化 目标 函数 (4.1) 的 众多 可 行 解 中 选 出 最 优 解 ? 一 个 自然 的 想 
法 是 使 用 奥 卡 姆 剃刀 准则 , 定义 类 表示 的 复杂 度 , 选取 最 简单 的 类 表示 。 对 于 类 
表示 (?,F(£)) = (2 十 中， 其 复杂 度 需 要 考虑 (wT, b) 注意 到 公式 (4.6)， 如 
Res-y f -ongo3 [09 = o, 则 可 以 证 明 8 = o, 此 时 ,类 表示 

kat kat 

的 复杂 度 可 以 只 考虑 w。 为 此, 可 对 数据 X 做 如 下 正则 化 处 理 , 2, — êr- 7 H 
Flêr) — f(&x) fo 在 本 章 的 后 面部 分 , 都 假设 对 数据 进行 了 正则 化 处 理 。 

在 对 数据 六 正则 化 处 理 之 后 ,可 以 知道 类 表示 为 (ê, F(£)) = (ê, wê), w 
果 类 表示 的 复杂 度 定义 为 |lwll?， 则 奥 卡 姆 剃刀 准则 要 求 选取 具有 最 小 范 数 的 可 
行 解 。 

综合 以 上 考虑 ， 同 时 使 用 类 一 致 性 准则 和 奥 卡 姆 剃刀 准则 ,就 可 以 得 到 岭 回 
归 (ridge regression) 的 目标 函数 (4.18): 




















min) (f) —w îr) "E 


min lwll? 


综合 考虑 问题 (4.18)， 则 可 以 考虑 如 下 问题 : 
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N 
min YO (lêr) — wy)? + Ald (4.19) 
k=1 


其 中 , 2 0 称 为 正则 化 参数 ,用 来 控制 收缩 程度 。 和 越 大 ,收缩 程度 越 大 ; 当 
A — 0 时 , 岭 回 归 退 化 为 原始 的 线性 回归 问题 。 
jd X = (ĉi, êz, dy)» 仍然 按照 针对 w 求 偏 导 置 0 的 方式 , 得 到 


wridge 一 (X XT 十 AD)?! XB (4.20) 


Kp I e Rr?*? 为 单位 阵 。 这 样 , Bf X XT 本 身 不 是 满 秩 的 , 加 上 AT 也 可 组 成 非 
奇异 矩阵 。 这 是 在 统计 学 中 首次 提出 岭 回归 的 主要 原因 。 


4.3 Lasso 回 归 


岭 回归 使 用 系数 的 平方 和 来 计算 类 表示 的 复杂 度 ， 该 复杂 度 对 系数 进行 束 
体 收缩 ， 但 当 变 量 个 数 很 多 时 ， 我 们 当然 会 关心 哪些 变量 或 特征 与 回归 目标 最 相 
K, 一 旦 找 出 这 些 变量 会 使 得 回归 的 结果 更 具有 解释 性 。 这 时 ， 系数 的 平方 和 来 
计算 类 表示 的 复杂 度 并 不 合适 ,系数 中 非 零 值 的 个 数 来 计算 类 表示 的 复杂 度 更 
为 合理 。 如 果 系数 是 零 ,对 应 的 变量 与 回归 目标 无 关 。 但是, 直接 用 系数 中 非 零 
值 的 个 数 来 测度 类 表示 的 复杂 度 将 给 算法 带 来 极 高 的 复杂 度 。 为 了 减少 计算 量 ， 
通常 使 用 系数 绝对 值 的 和 来 代替 系数 中 非 零 值 的 个 数 。 在 这 种 情形 下 ,类 表示 
(8, F(8)) = (Pa 的 复杂 度 定义 为 lol = X lwl- 

2 


综合 以 上 考虑 , 使 用 类 一 致 性 准则 和 奥 卡 姆 剃刀 准则 , 就 可 以 得 到 lasso 回归 
的 目标 函数 (4.21): 
N p 
min (f(x) — wi)? AY lws] (421) 
k=1 j=1 


对 比 式 (4.21) 与 式 (4.19), 不 难 发 现 , lasso 回归 较 岭 回归 的 最 主要 区 别 在 于 
对 系数 w 的 收缩 方式 。 Lasso 回归 用 系数 的 4- 范 数 {( 即 绝对 值 的 和 Y lwy|) ft 
j=l 


了 岭 回归 中 系数 的 平方 和 w3。 我 们 通常 使 用 图 4.2 给 出 这 两 种 收缩 方式 的 差 
j=1 


异 。 图 4.2 的 灰色 区 域 表 明 两 种 回归 的 可 行 域 lwi| + [we] < t A wt + wy <t, 椭 
圆 为 最 小 二 乘 误差 的 等 高 线 。 等 高 线 与 可 行 域 的 交点 为 问题 的 解 。 可 以 看 出 ， 相 
对 于 岭 回 归 的 圆 形 (二 维 情况 ) 可 行 域 , lasso 回归 的 可 行 域 为 萎 形 , 若 交 点 落 在 
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菱形 的 项 点 上 , 则 对 应 的 wj 为 0。 若是 高 维 情况 , 则 lasso 回归 的 可 行 域 将 有 更 多 
的 顶点 , 对 应 的 系数 也 就 有 更 多 的 机 会 为 0, 因此 可 以 获得 更 加 稀疏 的 解 , 这 一 特 
性 是 岭 回 归 所 不 具备 的 。 与 式 (4.11) 和 式 (4.12) 类 似 , 可 以 获得 问题 (4.21) DAE 
BEES: 





min ||wT X — Bll? + Mlwlli (4.22) 
Wy WY Wy WY 

| u^ un 
岭 回归 Lasso 回 归 


图 4.2 岭 回归 与 Lasso 回归 对 比 


求解 问题 (4.22) 的 难点 在 于 4- 范 数 在 0 点 位 置 不 可 导 ， 因此 不 能 像 岭 回归 
那样 直接 求 导 给 出 闭 解 。 目 前 已 经 有 很 多 针对 pan = 


化 算法 , 快速 迭代 收缩 阔 值 (fast iterative AMA PE aA 算法 
该 算法 用 于 解 型 如 下 式 的 目标 函数 : 


min F(x) = min f(x) + g(x) (4.23) 


其 中 g(x) 为 连续 的 凸 函数 ,可 以 不 光滑 。7(z) 为 光滑 凸 函数 ,其 导数 应 Lipschitz 
连续 ， 表 示 为 存在 常数 工 (让 ) > 0. 满足 : 


IV F(z) - VfG)lI < EG)lz — zl (vz, z) (4.24) 
V f(x) 为 f(x) 的 梯度 。 可 以 证 明 句 : 


A 


He) < F(2)+ < Ye) r -z> +P- a (4.25) 


DHEER, LA) H LRE. & f(w) = l7 — BIB, gw) = Alla, 把 
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F(w) E wO 处 展开 , 有 


1 P 
F(w) = 5||w* X — Bla + Alwlls 
" (4.26) 
< f(w)+ < V f(w?), w — w? > lw — w + Ml 


可 以 看 出 FIST 方法 最 小 化 的 并 不 是 原 函 数 ， 而 是 原 函 数 的 一 个 上 界 函数 。 
这 有 什么 好 处 呢 ? 这 样 转化 后 式 (4.26) 仍然 不 可 导 。 去 掉 式 (4.26) 的 常数 项 ,最 
优化 问题 变 为 


wt) = arg min f(w)+ < V f(w(?), 
w 





L 
w—w > pw — wOlf + All (4.27) 


1 
LV fer) + Allla 








iub 
arg min — ||w — (w(? 
w 2 


至 此 推导 出 w 的 迭代 公式 , 但 并 没有 解决 4 范 数 求 导 的 问题 , 这样 做 的 真正 目的 
在 于 问题 (4.28) 具有 闭 式 解 形式 图: 


zl 
Sa(a) = arg min 5||w — all + Allwlla (4.28) 


其 中 Sy (a) 为 软 阔 值 收缩 算 子 (soft-thresholding shrinkage operator), 定义 为 


ai— À, ai>A 和 
(Sy(@))i= 4 ai+À, ai < 一 人 (4.29) 
0, 其 他 
这 里 ，(SA(a)); 表示 向 量 SA(a) 的 第 i 个 分 量 。 由 式 (4.27) 和 式 (4.28) 可 得 
wD = Sa (w® - ivi (w®)) (4.30) 
Hh V f(a) = (a) X — B)XT, Vf(z) = GTX — B)XT, 于 是 有 
IV F(z) -VFI = llic — 2X X7 


ol (4.31) 
< XX" — z)ll 


根据 式 (4.24) 和 式 (4.31), AL =||Xllo- BD X 的 谱 范 数 。 到 此 该 算法 可 以 称 
为 iterative shrinkage thresholding(IST) 算法 , 其 收敛 速度 为 OTHE C HDE 
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算法 FIST 引入 辅助 变量 序列 aO, ZEREJGRTCTUH aO 计算 vt， 再 通过 w 与 
wl) 生成 下 次 迭代 时 用 到 的 a(t+tD， 从 而 保证 收敛 速度 为 OT, 算法 具体 过 
程 如 下 。 
算法 4.1 通过 FIST 求解 问题 (4.22) 
输入 : 数据 矩阵 A 
1: 初始 化 a = w® = (0,0,...,0)7, mY =1, e = 1073, T = 100 (T ARATE AO 
2: while (t < T) do 
3: w(? = Sx (a? 一 ly F(a) 

L L 
4 mt) tvi (m 


m? 一 1 
mith) 





5: att) = w 十 (wu? = wD) 


6: WR (|jw -wD > e), t — t-- 1. 否则 , wow, HRF 
7: end while 


输出 : w 口 


回归 问题 在 机 器 学 习 研究 中 具有 特别 重要 的 作用 。 特 别 是 在 统计 机 器 学 习 
中 , 学 习 问 题 被 定义 为 : 学 习 就 是 一 个 基于 经 验 数据 的 函数 估计 问题 四 。 这 是 机 
器 学 习 一 个 经 典 而 且 易 懂 的 可 操作 性 定义 。 为 了 方便 , 我们 称 其 为 机 器 学 习 的 
Vapnik EX. W, 在 这 种 定义 下 , 回归 问题 是 最 具 代 表 性 的 机 器 学 习 问 题 。 

根据 本 章 的 研究 可 以 知道 , 机 器 学 习 的 Vapnik 定义 是 将 学 习 问题 当成 了 一 
种 特殊 的 单 类 问题 来 处 理 。 应 该 说 , 机 器 学 习 的 Vapnik 定义 是 机 器 学 习 问 题 的 一 
个 简化 表示 , 特别 有 利于 理论 分 析 。 实 际 上 , 机 器 学 习 的 Vapnik 定义 在 传统 的 机 
器 学 习 理论 分 析 中 几乎 是 机 器 学 习 一 个 不 言 而 喻 的 假定 。 

但 是 ,对 于 单 类 问题 来 说 ， 由 于 归 类 公理 天 然 成 立 ， 机 器 学 习 的 Vapnik 定义 
不 仅 让 读者 不 易 看 出 学 习 的 目的 , 而 且 忽略 了 学 习 的 本 质 约 束 。 比 如 ， 对 于 单 类 
问题 ， 归 类 公理 由 于 天 然 成 立 自然 可 以 无 视 ， 类 相似 性 映射 似乎 也 不 十 分 重要 。 
然而 , 机 器 学 习 不 仅仅 是 单 类 问题 。 更 重要 的 是 , 机 器 学 习 的 Vapnik 定义 假设 样 
本 的 输入 特征 和 输出 特征 相同 , 这 也 不 是 所 有 机 器 学 习 问 题 都 满足 的 假设 。 因 此， 
对 于 机 器 学 习 公 理化 研究 来 说 , 机 器 学 习 的 Vapnik 定义 并 不 是 特别 合适 , 甚至 增 
大 了 发 现 机 器 学 习 公 理化 体系 的 难度 。 当 然 , 这 并 不 妨碍 在 算法 设计 方面 , 机 器 
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学 习 的 Vapnik 定义 对 于 某 些 类 型 的 学 习 算 法 设计 特别 有 用 ， 比 如 以 前 的 神经 网 


络 


样本 集 的 属性 特征 和 决策 特征 都 已 知 ， 则 为 有 监督 学 习 。 如 果 样 本 集 的 属性 特征 


， 现 在 的 深度 学 习 。 


在 传统 机 器 学 习 中 , 将 特征 分 成 属性 特征 和 决策 特征 。 如 果 一 个 学 习 问题 , 其 











已 知 而 决策 特征 未 知 ,该 学 习 问 题 为 无 监督 学 习 。 在 传统 的 机 器 学 习 研 究 中 , [Hl 


归 
为 


问题 属于 监督 学 习 , 或 者 有 教师 学 习 。 原因 是 任 一 样本 特征 (îr, f(2,)) Ps êr 
属性 特征 , 而 fex) 为 决策 特征 。 密度 估计 属于 无 监督 学 习 。 对 于 多 类 问题 , 输 





入 数据 (X,U) 中 , X 为 属性 特征 , U 为 决策 特征 。 因此 , WR U 已 知 ， 则 该 学 习 
问题 属于 有 监督 学 习 ; WRU 未 知 ， 则 该 学 习 问 题 属于 无 监督 学 习 ; 如 果 知 道 UV 
的 部 分 信息 , 则 该 学 习 问题 属于 弱 监 督学 习 ， 本 书 未 研究 这 类 问题 。 


的 





容易 知道 ,监督 学 习 、 无 监督 学 习 、 弱 监督 学 习 的 分 类 方式 是 基于 机 器 学 习 
Vapnik 定义 。 


习 题 
1. 试 构造 (或 者 发 现 ) 一 个 数据 集 , 使 得 在 此 数据 集 上 ,有 多 个 线性 回归 函数 达到 目标 函 
数 (4.11) 的 最 小 值 。 
2. 在 上 述 数 据 集 上 , 计算 岭 回归 ,并 分 析 不 同 和 的 影响 。 
3. 试 给 出 lasso 回归 的 一 个 应 用 实例 。 
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水 流 湿 ， 火 就 燥 ， 云 从 龙 ， 风 从 虎 。 
一 一 《周易 。 乾 。 文 言 》 


类 表示 公理 与 归 类 公理 清楚 说 明了 类 相似 性 映射 在 归 类 问题 中 具有 极其 重要 
的 作用 。 因 此 设计 合理 的 类 相似 性 映射 ,避免 产生 相似 性 悖 论 ， 是 解决 归 类 问题 
的 关键 。 而 设计 合理 的 类 相似 性 映射 , 需要 合理 的 对 象 特性 输入 与 输出 表示 。 如 
果 对 象 特性 表示 不 合理 , 类 相似 性 映射 就 失去 了 合理 的 基础 。 比 如 以 人 的 外 貌 美 
丑 、 胖 瘦 、 高 矮 、 肤 色 、 语 言 等 来 表征 人 的 善 恶 , 那么 可 以 想象 无 论 如 何 设 计 类 相 
似 性 映射 ， 都 很 难得 到 理想 的 归 类 结果 。 对 于 这 样 的 问题 ,模式 识别 的 先驱 之 一 
渡 边 慧 〈 美 籍 日 裔 ) 提出 了 著名 的 丑小鸭 定理 钙 : 如 果 没 有 合适 的 表征 (对象 特性 
表示 ), 丑小鸭 与 白天 忽 之 间 的 相似 性 与 两 只 白天 鹅 之 间 的 相似 性 一 样 大 。 丑小鸭 
定理 的 一 个 形象 例子 ,可见 唐 朝 诗人 白居易 的 两 句 诗 :“ 草 莹 有 炮 终 非 火 , 荷 露 虽 
团 岂 是 珠 。” 因 此 , 发 现 合 适 的 对 象 特性 表示 , 对 于 归 类 问题 至 关 重 要 。 

通常 , 在 信息 获取 阶段 , 判定 特征 与 学 习 任务 是 否 匹 配 依赖 于 领域 知识 , 通 
常 属于 领域 专家 的 工作 。 信息 采集 过 程 中 一 旦 丢失 重要 的 特征 将 严重 损害 学 习 效 
果 , 甚至 导致 完全 不 可 学 习 , 因此, 一 般 倾向 于 多 采集 一 些 相关 特征 。 然 而 ,相关 
特征 过 多 又 会 导致 “ 维 数 灾 难 ”(curse of dimensionality) 问题 。 维 数 灾 难 最 早 是 
由 理 查 德 。 贝 尔 曼 (Richard E. Bellman) 在 考虑 动态 优化 问题 时 提出 来 的 术语 ， 
用 来 描述 当 (数学 ) 空间 维度 增加 时 , 高 维 空间 (通常 有 成 百 上 千 维 ) 因 体积 指数 
增加 而 遇 到 的 各 种 计算 问题 , 这 样 的 难题 在 低 维 空间 中 不 会 遇 到 名 。 在 机 器 学 习 
中 ,是 指 随 着 特征 维 数 的 增加 ， 同样 规模 的 训练 样本 在 输入 空间 越 来 越 稀疏 ， 学 
习 算 法 搜索 到 正确 知识 表示 的 计算 复杂 度 呈 指数 级 增长 。 处 理 维 数 灾难 的 一 种 经 
典 方法 是 数据 降 维 。 

本 章 将 讨论 在 给 定 对 象 的 特性 表示 后 ， 如何 从 中 得 到 更 合理 的 数据 特征 ， 即 
数据 降 维 问题 。 为 简单 起 见 , 对 于 对 象 O = (01,02, ,ov}, 假设 对 象 特性 输入 
表示 为 (uisu oy) 其 中 , Vk, zk 是 一 个 p x 1 实 向 量 , 因此 对 象 特性 输入 表 
示 可 简写 为 X = [zrkjpxnN， 即 对 象 可 表示 在 一 个 p 维 空间 中 的 隐藏 结构 之 中 。 同 
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样 的 , 这 些 对 象 假设 具有 的 对 象 特性 输出 表示 为 (ngos uw) 其 中 , Yk, yr 是 
一 个 d x 1 实 向 量 , 可 简写 为 了 = [wsxw， 即 对 象 可 以 在 一 个 低 维 空间 中 表示 ， 
这 里 , p> d. 这 样 的 一 个 归 类 问题 ， 称 为 数据 降 维 问题 。 

WEU 未 知 且 c > 1， 此 时 的 数据 降 维 问题 称 为 无 监督 多 类 数据 降 维 。 否 则 
称 为 有 监督 数据 降 维 问题 。 显然 , 数据 降 维 问题 具有 归 类 输入 (X,U, X, Dsx) 和 
归 类 输出 (Y, V, Y, Dsy)。 本 章 中 , 我 们 先 研究 最 简单 的 情形 , 即 c = 1 的 情形 。 此 
时 无 论 六 已 知 还 是 未 知 , 都 不 提供 任何 有 用 的 归 类 信息 ,因此 单 类 降 维 问题 属于 
无 监督 学 习 。 在 这 个 假设 下 , X =Ý 5 X =Ý 显然 成 立 。 类 表示 唯一 公理 要 想 成 
立 , 只 需要 求 = 了 Y。 但 是 类 表示 唯一 公理 不 一 定 成 立 。 当 类 表示 唯一 公理 不 成 
Stn AARTE ARNIR SEMEN BAERT. M X SY 

可 能 近似 。 如 果 类 表示 唯一 公理 成 立 , 类 紧 致 性 准则 要 求 最 佳 工 应 使 得 类 尽 可 
is 以 上 分 析 告诉 我 们 ， 此 时 最 重要 的 是 得 到 输入 类 认 知 表示 和 输出 类 认 知 
表示 。 据 此 ,我 们 可 以 研究 许多 典型 的 数据 降 维 算法 。 








5.1 主 成 分 分 析 


当 c = 1， 对 象 都 属于 一 个 类 。 对 于 一 个 类 来 说 ， 最 简单 的 假设 是 其 对 
应 的 对 象 应 该 有 某 些 共同 的 特性 。 根 据 前 面 的 假设 容易 知道 ，N 个 对 象 O = 
(01,02, ,oN 上} 在 输入 空间 的 共性 是 所 有 对 象 都 可 位 于 一 个 p 维 坐标 系 中 , 在 输 
出 空间 的 共性 是 所 有 对 象 都 位 于 一 个 d 维 坐 标 系 中 。 因 此 , 一 个 自然 的 假设 是 其 
对 应 的 类 表示 是 一 个 坐标 系 。 这样， 对 于 对 象 集 O = (01,02, Loy 来 说 , 就 存 
在 两 个 类 表示 。 选取 哪 一 个 更 加 合适 呢 ? 根据 奥 卡 姆 剃刀 准则 ， 显 然 d 维 坐 标 系 
比 p 维 坐标 系 简 单 , 因此 , 应 该 选取 d 维 坐 标 系 来 做 类 表示 。 由 于 输入 空间 与 输出 
空间 对 应 的 都 是 对 象 的 表示 且 d < p， 因 此 一 个 自然 的 假设 就 是 输出 空间 的 a 维 
坐标 系 可 以 嵌入 输入 空间 的 p 维 坐标 系 中 。 换 句 话 说 , Y = [wkjaxw 是 这 些 对 象 
在 一 个 维 坐 标 系 下 的 坐标 , 而 该 d 维 坐标 系 的 坐标 基 可 以 被 p 维 空间 中 的 向 量 
表示 , 因此 , X = [zkjsxw 是 这 些 对 象 在 p 维 空间 的 一 个 嵌入 表示 。 根 据 同样 的 
分 析 , 在 所 有 的 d 维 坐标 系 中 , 最 简单 的 d 维 坐 标 系 应 该 是 正 交 坐标 系 ,， 即 其 坐 
标 基 是 单位 正 交 基 。 故 可 设 其 单位 正 交 基 分 别 为 wi wo, sss was 坐标 原点 为 ro。 
由 此 可 以 知道 并 = 五 = [ro wi, wo,--- wa], 其 中 ww; 205,05 215i j, 
9; =0 H i Æj, Yrk = (Zk — o) T wy, xo, wi Æ p x 1 向量。 
由 于 类 表示 唯一 公理 成 立 , 因此 一 个 好 的 类 认 知 表示 需要 使 得 类 紧 致 。 因 为 
X 5 Y WES ERA. 因此 ,如果 一 个 对 象 可 以 由 该 坐标 系 表示 ， 就 认为 没有 差 


5. M Dsy(y, Y) = 0, ifi Dsx (z, X) = (x — xo Y wz} (x — zo)wi)T(z — zo — 
ici 
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x wy (x — ro) wi) 表示 了 对 象 特性 输入 表示 z 与 类 认 知 表示 X 的 相 异 度 。 
i=1 











AE Dsx (x, X) = (x — xo) T(x — xo) ee xo)(x — xo) wie 显然 ,如 
ici 


IR a FEV zo 为 原点 的 正 交 坐标 基 (wi, wo, ,wa} 的 线性 组 合 , Dsx (c, X) = 0, 
此 时 意味 着 z ARY 完美 表示 。 因此， 如 果 Ver, Dsx(£k, X) = 0， 则 对 象 
O = {01,02,°++ ,on} 可 以 被 以 xo 为 坐标 原点 、 以 (wi, w2, ,wa} 为 有 序 正 交 
坐标 基 完 美 表示 ,此 时 输入 类 相 异 度 为 零 。 一 般 情形 下 , Yer, Dsx (ap, X) = 0 不 
成 立 。 

因为 类 表示 唯一 性 公理 成 立 , 类 紧 致 性 准则 可 以 用 来 搜寻 最 优 类 表示 X. i 
最 优 基 应 使 得 类 内 方差 (5.1) 最 小 化 : 


min $ ^ Dsx (zi, X) = > (r — xo)" (zp — x0) 
Tk k 











d (5.1) 
B y wy X (a — aro) (y — zo) wi 
i=1 k 
显然 在 约束 ViVj, w w; = 65 Fo 求 目 标 函数 (5.1) 最 小 化 , 可 使 用 拉 格 朗 日 
eT. 
由 拉 格 朗 日 乘 子 法 , 得 到 如 下 拉 格 朗 日 辅助 函数 (5.2): 


d 
L 3^6 Zo)" (zk Xo) 5 wr we = Xo) (Tk = Lo) w; 
k i=1 k 














: (5.2) 
— Y Nw —1) 
ici 
求 目标 函数 工 的 一 阶 导数 ,可 得 到 公式 (5.3): 
d 
M = —2([, — 3 wur) S (er — xo) 
i—1 k (5.3) 
a 2 2 Zo)(zk — Zo) wi — 2Àw; 
要 最 大 化 目标 函数 L, MIAR (5.3) 为 零 ， 由 此 可 以 知道 ， 
aci 
i (5.4) 


Y n — zo) (zk — Zo) wi = Aiwi 
k 
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由 公式 (5.4) 可 知 ， 和 i 是 > (zx 一 zol(zk 一 zo)7 的 特征 值 。 容 易 知 道 > (zk 一 
E k 


to) (ae — to)? 是 半 正 定 和 矩阵 , 其 特征 值 必定 非 负 ， BI Vi, A; > 0。 由 此 可 以 将 公式 
(5.1) 化 简 为 公式 (5.5) 























d 
min x Dsx (zx, X) 32 z0)" (zk — 2o) 2 Mwg wi 
| k i= 


3 ins xo)" (ae zo) Yu 
i=1 


k 


(5.5) 








Eg > = L(t. — Zo)(zx — 2o)? , W |i» = L(t — x9)" (zy 一 zo)。 同 时 ， 
根据 方 阵 的 性 质 , 有 tr( 并 ) = 六 Ae 其 中 入 是 并 的 第 i 个 特征 值 。 由 此 可 以 将 
Xx i=1 Xx 


公式 (5.5) 写成 minx Y: Dsx(iX) = LA-A E Xi。 因此 , 要 使 得 公式 
k i=1 i=1 i=d+1 
(5.5) 达到 最 小 值 , 需要 求 得 o (Ek — xo) (we — 0)? 的 前 ad 个 最 大 特征 值 。 显然 其 
k 

最 大 特征 值 对 应 的 特征 向 量 归 一 化 后 , 公式 (5.5) 第 二 项 的 意义 是 投影 后 样本 具 
有 最 大 方差 

通过 上 面 的 分 析 , 可 以 得 到 关 = Y = [ro, wi, wa, --- ,wa]， 此 即 主 成 分 分 析 。 
显然 主 成 分 分 析 就 是 求 一 个 最 能 代表 N 个 对 象 的 正 交 投 影 坐 标 系 ,此 最 优 正 交 
投影 坐标 系 为 该 类 的 类 认 知 表示 , 在 该 表示 下 , 样本 的 方差 最 大 。 


5.2 AER FERED A 


在 许多 应 用 之 中 , 样本 的 描述 特征 是 非 负 值 ， 如 图 像 的 颜色 值 特征 、 OCR TY 
词 频 特 征 等 。 但 是 这 些 特征 同样 数目 巨大 , 需要 数据 降 维 。 为 了 保持 样本 特性 ， 降 
维 后 的 特征 也 需要 保持 非 负 特性 。 这 时 候 用 到 的 学 习 算 法 常常 是 非 负 和 矩阵 分 解 。 

在 非 负 和 矩阵 分 解 (non negative matrix factorization, NMF) 中 ,输入 类 表 
示 为 原点 为 0 的 原 输入 p 维 坐标 第 一 象限 的 d(d < p) 斜 角 坐 标 系 。 对 第 一 
象限 的 限制 体现 了 “ 非 负 ”的 特点 。 斜 角 坐 标 系 强调 了 NMF 并 不 要 求学 到 的 
低 维 空间 的 基 向 量 正 交 。 在 NMF 中 输入 类 表示 与 输出 类 表示 相同 , 即 X = 
Y = [win wq] = W eRzxe， 当 输入 数据 为 和 = [zxw， 输 出 数据 为 
Y = [hrelaxw = H Wf, NMF 限定 cz, hrk, wre 均 大 于 等 于 0。 

与 之 前 针对 PCA 分 析 类 似 , 可 以 定义 类 相 异 性 映射 为 Dsx (zy, X) = (zk 一 
hirwa) (zk — X hirwi)。 由 于 类 唯一 表示 公理 成 立 , 类 紧 致 性 准则 要 求 我 们 在 
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寻找 最 佳 的 类 表示 时 , 应 最 小 化 如 下 的 目标 函数 


min» Dsx (zi, X) = b» — 2 haw;) (Zk = e hixrwi) 














(5.6) 
= |X - WH]? 
由 此 我 们 引出 了 NMF! 的 目标 函数 
min 5X —-WH|? st W20,H>0 (5.7) 
对 于 问题 (5.7) 仍然 采用 拉 格 朗 日 乘 子 法 求解 , 给 定 拉 格 朗 日 方程 
1 
L(H,W) = 3lX WHY — (A, W) — (B, H) (5.8) 
其 中 A, B HRT, (-,-) 为 内 积 操作 。 针 对 五 求 偏 导 得 
OL ji m 
BF " X-W WH-B (5.9) 
; OL E 
根据 KKT 条 件 ag 且 Bj4H;5-0, 可 得 
(WTX —WTWH)4Hi; =0 (5.10) 
由 此 可 得 关于 H 的 更 新 公式 为 
2 (WT X); 
Hi; = Hs WWA); (5.11) 
同 理 , 可 以 得 到 关于 W 的 更 新 公式 为 
Wi; = Wi; iid (5.12) 


在 文献 [6] 中 给 出 按照 此 和 迭代 形式 下 非 负 分 解 的 收敛 性 证 明 。 


5.3 ”字典 学 习 与 稀疏 表示 


在 单 类 数据 降 维 中 ， 主 成 分 分 析 的 类 表示 是 单位 正 交 坐标 系 ， 非 负 算 阵 分 解 
的 类 表示 是 位 于 第 一 象限 的 非 负 坐标 系 。 显然 , 这 两 种 坐标 系 都 非常 特殊 。 如 果 
步 放松 对 类 认 知 表示 的 要 求 , 放弃 坐标 系 中 的 坐标 基 向 量 线性 无 关 的 假设 ， 
是 否 可 以 呢 ? 这 就 可 以 导出 字典 学 习 。 
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假设 类 认 知 表示 既 不 是 单位 正 交 坐标 系 ， 又 不 是 位 于 第 一 象限 的 非 负 坐标 
系 ， 而 是 一 个 没有 约束 的 广义 坐标 系 ， 该 坐标 系 中 的 坐标 基 允 许 线 性 相关 。 该 组 
基 向 量 的 作用 和 现实 中 的 字典 类 似 , 字典 中 的 字 也 不 是 独立 关系 ,因此 , 该 组 基 
向 量 通常 称 为 字典 。 

与 主 成 分 分 析 与 非 负 矩阵 分 解 不 同 的 是 , 在 字典 学 习 中 , 已 知 的 是 数据 输出 
Y = [Yrelaxn> 未 知 的 反而 是 数据 输入 各 = [zrkljpxw。 同样 地 , A p > do 

同样 假设 输入 类 认 知 表示 与 输出 类 认 知 表示 相同 , IERI X — Y = [w w, 
wp] = W e RYP, 注意 到 输入 数据 X AR, 而 输出 数据 Y 已 知 ,因此 ,此 时 定 
义 的 类 相 异 性 映射 为 输出 类 的 类 相 异 性 映射 Dsy (yr, Y) = (ye 一 2 acwi)? (y 一 
2 sirwi) = (yk — Ware)" (yr — Way), 其 中 yk = (yi Yor, ++ ak). o 

由 于 类 表示 唯一 公理 成 立 , 类 紧 致 性 准则 要 求 在 寻找 最 佳 的 类 认 知 表示 时 ， 
应 最 小 化 目标 函数 (5.13). 


min) Dsy (yk: Y) = X (ur — Y riwi)" (y — Y ini) 
nd k i 


k i 








E > (办 — Wear)" (yy — Way) (5.13) 
E 


= |Y - Wx]? 
满足 最 小 化 目标 函数 (5.13) 要 求 的 字典 或 者 广义 坐标 系 太 多 太 多 。 这 么 多 坐 
标 系 具有 同样 的 性 能 ,就 可 以 应 用 奥 卡 姆 汀 刀 准 则 将 复杂 的 坐标 系 别 除 。 应 用 奥 
卡 姆 剃刀 准则 的 关键 在 于 设计 复杂 性 度量 。 一 个 简单 地 度量 坐标 系 复杂 的 标准 
是 ， 在 该 字 熏 下 样本 的 坐标 值 越 称 琉 的 ， 即 其 非 零 坐标 值 越 少 ， 零 坐标 值 越 多 ， 
则 该 坐标 系 越 简单 。 在 这 样 的 假设 下 ， 一 个 坐标 系 的 复杂 度 可 以 用 其 标 度 的 N 
N 
个 对 象 的 非 零 值 坐标 值 个 数 来 测度 ， 即 SS ros BEAMER A 
k=1 


3: lllo: 考虑 到 Lo 度量 缺少 解析 性 , 因此 ， 一 般 使 用 Ly 度量 来 代替 Lo 度量 。 
k=1 
综合 考虑 类 紧 致 性 准则 和 奥 卡 姆 剃刀 准则 , 所 求 的 坐标 系 应 该 最 小 化 目标 函 
数 (5.14)。 
y N 
min Y lige — Wald A lerla (5.14) 
k=l k=1 


SPAR RS Y = W = (wi,w2,… ,w,) ER®?P, 即 为 字典 , p 为 字典 中 基 的 个 数 
或 者 字 的 个 数 ，zk € RR? 为 数据 ye € R^ ETP ideas. Ask (5.14) 的 第 
一 项 表示 重 构 误差 , 第 二 项 表示 稀疏 约束 。 其 包含 了 两 个 子 问 题 , 一 个 是 与 4.3 节 
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类 似 的 lasso 问题 用 以 求解 数据 在 字典 上 的 稀 朴 表示 ,第 二 个 是 根据 表示 结果 求 
字典 。 

优化 该 问题 仍然 采用 与 NMF 类 似 的 交替 更 新 策略 ,固定 一 项 , 更 新 另外 一 
项 。 固定 W, 求解 zk 的 过 程 请 参考 lasso 算法 。 下 面 求解 字典 W. 假设 已 获得 N 
个 数据 YY = (hi ha,--- hw) € RON 的 稀疏 表示 和 矩阵 X = (zlza,… ,ZN) € 
RPN, 求解 字典 W 可 写成 





min |Y - WX} (5.15) 


这 里 采用 K-SVDD 算法 求解 问题 5.15. K-SVD 采用 逐 列 的 方式 更 新 字典 ， 当 更 
新 第 大 个 基 向 量 时 , 3X (5.15) 可 以 写成 





min |Y — W X |. = min |Y > w(x) = (X | 
jt (5.16) 
= min |E; — wi(X)' |p 


其 中 (X) IB X 的 第 i 行 。 这 样 , Be EO E, = Y 一 Y w; (X)? 的 
jzi 


一 个 秩 1 矩阵 逼近 问题 。 因此 可 以 对 E; 做 一 次 SVD iE, wi 与 QO 的 最 优 解 
就 是 E, 最 大 的 奇异 值 对 应 的 那 一 对 奇异 向 量 。 由 于 (X) 的 更 新 向 量 可 能 不 再 
Mio Jg Y AES XX 中 非 零 元 素 的 个 数 ， 只 针对 (X 六 中 的 非 零 元 素 进 行 处 
FE, (XY 中 非 零 元 素 的 索引 表示 字典 w BGT Y 中 哪些 数据 元 素 的 构建 ,这 些 
元 素 构成 了 YY 的 一 个 子 集 ， 因 此 , 在 考虑 非 零 元 素 后， 误差 E; 代表 了 字典 对 这 
一 数据 子 集 在 不 考虑 wi nim. 

需要 指出 的 是 , Bag EETA, 实际 上 ,lasso [BH JE ice 
示 , 但 字典 学 习 一 定 是 稀疏 表示 。 














5.4 faa TERRA 


当 数 据 具备 某 些 非 线性 结构 ， 如 流 形 结构 时 , 我 们 希望 降 维 后 的 数据 仍然 保 
持 这 些 结构 。 局 部 线性 嵌入 (locally linear embedding, LLE) 给 出 了 它 的 解决 方 
案 回 。LLE 的 目标 是 在 数据 降 维 后 仍然 保留 原始 高 维 数据 的 拓扑 结构 。 这 种 拓扑 
结构 表现 为 数据 点 的 局 部 邻接 关系 。 对 于 输入 X. 其 类 表示 X. 由 对 象 间 的 局 部 线 
PEA A ERE X =W = [wrrjnxn 给 出 。 根据 类 紧 致 性 准则 , 我 们 希望 最 小 化 如 下 
目标 函数 




















min ^ Dsx (zi, W) = > ^ liz — Y wnal? (5.17) 


1EN(k) 
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其 中 N (K) 指点 zx 的 近邻 集合 。 公式 (5.17) 表明 每 个 点 可 表示 成 它 近邻 的 一 个 线 
性 组 合 , 这 种 局 部 组 合 关 系 用 系数 矩阵 W 表示 。 根据 类 表示 唯一 公理 , X=Y, 
KY =W. 同时 类 紧 致 性 准则 要 求 , 一 个 好 的 类 输出 Y 需要 满足 如 下 目标 
函数 : 





min ^ Dsx (yr. W)-Y lu — Y well? (5.18) 
k k lEN(k) 
在 式 (5.18) 中 , LLE 根据 从 原始 数据 获得 局 部 系数 矩阵 W 以 求 取 数据 的 低 维 表 
Io LLE 的 核心 思想 即 是 通过 求解 式 (5.17) 和 式 (5.18) 获得 类 表示 和 矩阵 ， 即 组 合 
系数 矩阵 W。 以 下 给 出 LLE 算法 详细 的 求解 过 程 。 
在 求解 式 (5.17) 时 , 会 进行 如 下 约束 


min> ， zx — > wet ||? s.t. 2 wr 一 工 (5.19) 

k IEN(R) le N(k) 
该 约束 保证 了 W 的 平移 不 变性 ， 即 数据 点 经 过 某 些 线性 变换 时 ，W 仍然 有 
效 。 以 下 给 出 这 一 性 质 的 简要 说 明 。 假定 zx 可 由 其 近邻 的 线性 组 合 表示 ， 即 
Zh 二、 waro 令 向 量 t 为 某 一 平移 量 , 对 zk 平移 后 ,其 重新 构建 的 近邻 关 


lEN(Kk) 
系 为 


zk+t= M vuli t t) (5.20) 
l 


其 中 va 为 平移 后 的 重 构 系 数 。 于 是 有 
DP wps +t = x velz +t) = > (viai + vrt) (5.21) 


1EN(k) 1EN(k) 1EN(k) 





平移 不 变性 要 求 wy, = vi， 由 此 可 得 


t= >》 umt= >》 wut (5.22) 


leN(k) 1EN(k) 














由 此 可 得 》 wasl. 


1EN(k) 
式 (5.19) 中 求 所 有 点 的 重 构 误 差 的 最 小 值 可 以 分 解 成 求 每 个 点 的 最 小 重 构 误 
差 ， 以 保证 整个 误差 最 小 。 以 下 给 出 针对 每 个 点 的 W 的 求解 方法 。 给 定 问 题 


min zx = > RD s.t. A wk =1 (5.23) 
Wki 


lEN(k) 1EN(k) 
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4 Ny. € R?*K 为 zx 的 天 个 邻居 构成 的 矩阵 ， 同 时 令 Xy = [erler] e] € 


RP*É, wi € RE”! 为 系数 向 量 , 则 式 (5.23) 可 写成 如 下 形式 
f (we) = |[Xgwy — Newell? 
= [Ge — Ne)well? 


= ((QXy — Ny)wy)T (Xy — Ny)wx) 





= wy (Xy — Nk)T (Xy — Nk)wy 


= wp QW 


(5.24) 


其 中 Qi 为 zx 的 一 个 局 部 协 方差 矩阵 。 结 合约 束 条 件 , 有 如 下 的 拉 格 朗 日 方程 


1 
L(wy) = we Qiu. — Ak(wi1 — 1) 


JEP 16 REX! 为 全 1 向量。 针对 wk 求 偏 导 并 置 0 得 
OL 


Du. = Qywy — A41—0 


易 得 
Wk = AGI 


(5.25) 


(5.26) 


(5.27) 


利用 式 (5.23) 中 的 约束 , 得 1Tw, = 11O = 1, 进而 Xk = (1TQ7'1)t, 将 


其 代入 式 (5.27) 得 


K 


六 (Qi Dis 


m=1 


KK — 
» > (Qiu. 


l=1 m=1 


Wi = 


根据 上 一 步 获得 一 系列 的 wy, 定义 完整 的 W 如 下 : 


2j we, lE N(k) 
(Wu = { 0, 其 他 


(5.28) 


(5.29) 


下 面 求解 数据 的 低 维 嵌入 = [uly] lyn] € RN. 我 们 希望 数据 被 降 维 
后 仍然 保持 高 维 数据 原始 的 局 部 拓扑 结构 , BW, 因此 用 以 下 目标 函数 求解 


N N N N 
, 1 
min = 2; lux 一 2 vanl, s.t. n =0, 4 » yky =I — (530) 
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其 中 Te Rax4 为 单位 矩阵 ,， 式 (5.30) 中 的 两 个 约束 都 是 为 了 获得 唯一 有 效 解 ,第 
一 个 约束 条 件 使 得 数据 均值 在 坐标 原点 ,由 于 当 y; 被 平移 固定 值 时 ， 其 仍 为 问题 
(5.30) 的 解 , 通过 这 一 约束 可 以 避免 这 些 无 效 解 。 第 二 个 约束 条 件 通过 令 数 据 的 
协 方差 矩阵 为 一 单位 阵 ， 从 而 避免 了 平凡 解 , 并 且 使 得 嵌入 空间 中 每 一 维 的 尺度 
相同 。 式 (5.30) 写成 和 矩阵 形式 为 


1 
min-|Y-YW|h st Y1-0, YYT-I (5.31) 

其 中 1e RY 并 且 
IY ^ YW? = trace(Y (I — W)(I — W)TY 7) = trace(Y MYT) (5.32) 


其 中 MM = (I 一 W)(IT 一 W)T。 车 降 维 到 4 维 , 则 问题 (5.31) 的 解 为 矩阵 M 的 最 
小 的 4& 个 特征 值 对 应 的 特征 向 量 。 由 于 最 小 的 特征 值 对 应 的 特征 向 量 几 乎 为 0， 
因此 通常 取 第 2 到 第 十 1 个 最 小 特征 值 对 应 的 特征 向 量 。 








5.5 ”典型 关联 分 析 


如 果 对 象 特性 输入 表示 和 和 对 象 特性 输出 表示 YY 都 已 知 , 求 其 对 应 的 输入 
输出 类 认 知 表示 。 在 这 种 情况 下 , 如果 对 类 认 知 表示 没有 约束 ,其 对 应 的 输入 输 
出 类 认 知 表示 很 多 。 根 据 奥 卡 姆 剃刀 准则 , 在 没有 约束 的 情形 下 ,应 该 选择 最 简 
单 的 类 认 知 表示 。 容 易 想到 对 象 特 性 的 线性 组 合 是 最 简单 的 类 认 知 表示 ， 而 对 象 
特性 的 线性 组 合 在 比例 变换 下 具有 几何 不 变性 。 据 此 , 可 以 假定 输入 类 认 知 表示 


T 
X 为 标准 化 后 的 所 有 输入 变量 的 一 个 线性 组 合 , 0A X = ry’ Jp a eR 
T 
为 组 合 系数 。 同 理 记 输出 类 认 知 表示 六 二 Yeu 其 中 be RY 为 组 合 系数 。 


类 唯一 表示 公理 要 求 二 者 相同 。 但 是 , 类 唯一 表示 公理 的 要 求 太 高 , 一 般 达 
不 到 。 因 此 , 考虑 类 一 致 性 准则 ， 只 要 相近 就 好 。 由 此 得 到 目标 函数 (5.33): 
z 2aT XY Tb 
Ne pere 07» 


XTa YTb 

|XTa|| llY™oll 
由 式 (5.33) 可 知 ， 类 一 致 性 准则 在 这 里 等 同 于 最 大 化 两 组 变量 线性 组 合 后 的 关 
联系 数 。 这 也 是 典型 关联 分 析 (canonical correlation analysis,CCA) 的 由 来 , 同时 
a, b 也 称 为 典型 变量 。 根据 式 (5.33) 可 得 目标 函数 (5.34): 











min || X — Y |? = min 
a,b a,b 














max a XY'b si. a XX a=b YY? =f (5.34) 
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求解 问题 (5.34) 仍然 采用 拉 格 朗 日 乘 子 法 。 给 定 如 下 的 拉 格 朗 日 方程 ; 





L(a,b, 01,02) =a" XY Tb — A (aT X XTo -1)- A TY") — d) (5.35) 
分 别 对 a,b 求 偏 导 , 并 令 导 数 为 0, 得 
XY'b —6XX'a—0 
YXTa — 65YYTb — 0 
5X (5.36) 中 两 式 分 别 左 乘 aT，bT， 并 利用 约束 条 件 aTXXTa = 1,5TYYTD — 1, 
有 


(5.36) 





a'XYTb=0, " 
bTY XTa = 0 Bo 
由 式 (5.36) 可 得 
(XXT) 1xYTb = 01a 
5.38 
(YYT)3Y XTa = 05b i 
， 0 (XXT)-!xyT a 
^ = — 
根据 式 (5.37) 和 式 (5.38), $ A = YYY XT i w= A ^ 
则 获得 如 下 表示 : 
Aw = 01w (5.39) 


因此 问题 转化 为 求解 特征 值 、 特 征 向 量 的 问题 。 由 最 大 的 特征 值 获得 两 组 变量 的 
典型 相关 性 的 大 小 。 由 最 大 特征 值 对 应 的 特征 向 量 w 获得 对 应 的 两 组 变量 的 组 合 
系数 。 直 接 求 解 4 的 特征 向 量 计算 量 过 大 , 因此 可 利用 式 (5.38) 得 

(XX OXY "= (5.40) 


因此 可 以 先 根据 式 (5.40) 求 出 a, 再 根据 式 (5.36) KiE bo 根据 4 的 最 大 特征 
值 求 得 的 第 一 组 典型 变量 ， 记 为 a1l,b1, 若 继 续 挖 扬 变 量 间 的 相关 性 则 可 以 根据 
式 (5.40) 求 得 第 二 大 特征 值 对 应 的 特征 向 量 , 记 为 a2, 2, 同时 保证 了 不 同 的 组 之 
间 的 典型 变量 互 不 相关 。 





5.6 ”多 维度 尺度 分 析 与 等 距 映射 


等 距 映 射 (isometric mapping, ISOMAP) 是 多 维 尺度 分 析 (multidimensional 
scaling, MDS) 利用 测 地 距离 在 流 形 数据 上 的 扩展 , 因此 把 它们 放 在 一 起 介绍 。 5.4 
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节 的 LLE 算法 侧重 从 局 部 出 发 ， 进 而 保证 降 维 后 的 数据 仍然 保留 原始 数据 的 局 
部 邻接 关系 。 而 MDS 5 ISOMAP 则 是 从 全 局 角度 出 发 对 数据 降 维 。MDS 的 基 
本 出 发 点 是 保证 降 维 后 的 数据 仍然 保留 原始 数据 的 任意 两 点 间 的 距离 关系 , 即 原 
始 空间 中 距离 很 近 的 点 在 低 维 映射 后 仍然 离 得 很 近 , 距离 很 远 的 点 降 维 后 仍然 离 
得 很 远 。 

因此 对 于 MDS 来 说 , 输入 类 表示 X = Dx = [dX] xn, dX 为 输入 点 zx 与 
v, 的 距离 。 输 出 类 表示 站 = Dy = [djnxw; di, 为 输出 点 yx 5 wi 的 距离 。 显 而 
By WX = Y 是 很 难保 证 的 , 但 类 一 致 性 准则 要 求 一 个 好 的 工 应 该 满足 如 下 目标 
函数 ， 














min L(X, Y) = L(Dx, Dy) (5.41) 


也 就 是 说 类 输入 表示 和 类 输出 表示 应 该 尽 可 能 一 致 ， 由 此 可 得 MDS 的 目标 
函数 : 
N N 
mind) (dă — dày (5.42) 
k=1 l=1 
其 中 距离 度量 可 以 采用 传统 的 欧 氏 距离 , BI d = [zy 一 zz di = lys — wills 下 
给 出 MDS 的 求解 过 程 。 
AERE T eR, H 














te = (ry — Z)! (a — z) = apu] ri 3'e, + aTa (5.43) 








igr x 为 均值 向 量 。 同 时 易 得 


k 


1 
apm = -5da — zi zk — a; 1) (5.44) 
xir -= (Sc c? - Nein - adn) (5.45) 
2N M4 
1 
-3N ( 2 (dX)? — Nata, 一 2 a tp) (5.46) 


ETE = -m (eir - ND em NY te) (5.47) 


把 式 (5.44) ~ IÈ (5.47) 代入 式 (5.43), 得 


如 = 一 (es y-y? ai - x (dix)? + +3 j (5.48) 
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由 式 (5.48) 可 得 两 向 量 的 内 积 可 以 只 用 两 者 之 间 的 距离 表示 。 若 输入 矩阵 和 已 
经 去 均值 化 , 则 式 (5.48) 可 以 写成 矩阵 的 形式 


1 
T-X'Xx- -5HDxH (5.49) 


JEP H =I- 2117, 1 为 全 1 向 量 , Dx 为 由 原始 输入 数据 得 出 的 距离 矩阵 这 
里 注意 , 此 时 Dx 中 的 元 素 DxGy) = (dX)? 可 以 证 明 [ 匀 ， 当 采用 欧 氏 距离 时 , T 
为 半 正 定 矩 阵 。 同 时 目标 函数 (5.42) 可 以 写成 如 下 形式 





min trace(XTX —YTY)? (5.50) 


求解 问题 (5.50) 只 需 对 T HETRE T =U AU, FARRER d 维 ， 只 需 提 
取 工 的 前 a 个 特征 向 量 , 记 为 UV', 并 使 Y= A2UT 即 可 。 

根据 MDS 的 原理 , ISOMAP 为 MDS 在 流 型 数据 上 的 一 个 扩展 , 其 与 MDS 
最 主要 的 不 同 是 ISOMAP 使 用 测 地 距离 代替 欧 氏 距离 来 构造 距离 矩阵 。 这 是 由 
于 对 于 非 线 性 的 流 形 结构 ， 如 我 们 在 球体 上 测量 两 点 的 距离 ,两 点 的 欧 氏 距离 往 
往 并 不 合适 , 我 们 更 关注 两 点 沿 着 球体 表面 的 实际 距离 。 因此 ISOMAP 利用 测 地 
距离 更 擅长 捕捉 此 类 结构 。 


讨 论 

本 章 只 讨论 了 部 分 经 典 的 单 类 数据 降 维 算 法 。 其 基本 思路 是 从 简单 到 复杂 。 
首先 讨论 了 类 表示 唯一 公理 成 立 情形 下 单 类 数据 降 维 问题 , 包括 主 成 分 分 析 、 非 
负 和 矩阵 分 解 、 字 典 学 习 和 局 部 线性 嵌入 等 数据 降 维 算法 等 。 然 后 讨论 类 表示 唯一 
公理 不 成 立 的 情形 , 主要 研究 了 典型 关联 分 析 、 等 距 映 射 等 数据 降 维 算法 。 

实际 上 , 文献 中 这 些 单 类 数据 降 维 算法 还 有 进一步 的 发 展 , dun dea Un. S 
棒 主 成 分 分 析 B4 等 。 可 以 预期 , 这 些 单 类 数据 降 维 算法 还 将 不 断 发 展 。 

本 书 按照 外 在 输入 输出 的 复杂 性 , 依次 讨论 了 密度 估计 、 回 归 和 单 类 数据 降 
维 这 三 个 单 类 学 习 问 题 。 其 主要 的 目的 有 三 个 : 一 是 说 明 类 认 知 表示 的 多 样 性 ; 
二 是 说 明 算 法 的 适用 性 由 类 认 知 表示 和 类 相似 性 函数 决定 ; 三 是 为 多 类 学 习 疯 定 
基础 ， 毕 竞 多 类 是 由 单 类 组 成 。 

通过 密度 估计 、 回 归 和 单 类 数据 降 维 这 三 个 单 类 学 习 问 题 的 研究 , 可 以 知道 ， 
类 认 知 表示 不 同 ,其 对 应 的 学 习 算 法 适应 范围 不 同 。 理论 上 , 创新 性 强 的 机 器 学 
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习 算 法 一 定 是 在 类 认 知 表示 上 有 所 突破 。 其 类 认 知 表示 越 新 颖 , 对 应 的 学 习 算法 
创新 性 越 强 。 一 个 全 新 的 类 认 知 表示 可 以 开创 一 类 全 新 的 机 器 学 习 算 法 。 

需要 说 明 的 是 , 密度 估计 、 回 归 和 单 类 数据 降 维 这 三 个 单 类 学 习 问题 并 不 是 
机 器 学 习 中 所 有 的 单 类 数据 学 习 问 题 。 机 器 学 习 中 的 单 类 数据 问题 还 有 压缩 感 
知 、 排 序 学 习 ， 以 及 部 分 的 异常 值 检测 问题 。 未 来 也 许 还 有 新 的 单 类 数据 问题 产 
生 。 这 些 问 题 留 给 读者 自行 讨论 。 


l. 试 计算 公 st (5.3) 2 一 一 E 一 0 的 通 解 。 
和 ani: -个 不 同 于 本 章 定义 的 Dsx (zx, X). 并 由 此 导出 NMF 的 新 
目标 函数 和 对 应 的 新 算法 。 
给 出 字典 学 习 的 一 个 应 用 实例 。 
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方 以 类 聚 , 物 以 群 分 , BOER. 
一 一 《周易 。 &8 E» 


前 面 的 章节 讨论 了 单 类 问题 。 本 章 开 始 讨论 多 类 问题 。 如 果 假 设 ec > 1 并且 
BRT X 外 , 其 他 归 类 输入 输出 中 的 元 素 均 未 知 ,此 时 归 类 问题 为 聚 类 问题 , 显然 
聚 类 问题 属于 无 监督 学 习 问题 。 


6.1 ” 聚 类 问题 表示 及 相关 定义 


传统 意义 上 , 聚 类 分 析 要 求 在 对 象 没有 作 标定 的 情形 下 , 将 有 限 集合 中 的 对 
象 划分 成 c 个 非 空子 集 , 使 得 类 内 的 对 象 相似 , 类 间 的 对 象 不 相似 。 因此， 一 个 聚 
类 算法 首先 需要 回答 两 个 关键 问题 : 何谓 类 ? 何谓 类 内 的 对 象 相似 , 类 间 的 对 象 
不 相似 ? 

聚 类 的 第 一 个 关键 问题 要 求 给 出 类 的 定义 和 表示 。 在 假设 类 定义 和 表示 问题 
已 经 解决 的 前 提 条 件 下 ， 类 表示 公理 给 出 了 类 表示 必须 满足 的 归 类 条 件 。 聚 类 的 
第 二 个 关键 问题 要 求 给 出 合适 的 相似 性 计算 。 在 假设 类 相似 性 计算 问题 已 经 解决 
的 情况 下 , 归 类 公理 给 出 了 类 相似 性 映射 必须 满足 的 归 类 条 件 。 说 得 更 清楚 一 些 ， 
样本 可 分 性 公理 和 类 可 分 性 公理 提供 了 类 相似 性 映射 的 必要 条 件 。 样 本 可 分 性 公 
理 认为 类 内 对 象 之 所 以 相似 , 是 因为 同一 类 内 的 样本 都 与 同一 个 类 表示 最 相似 ， 
而 不 一 定 是 类 内 的 任意 两 个 对 象 都 最 相似 , 这 显然 与 人 们 的 直觉 是 一 致 的 , 比如 
维特 根 斯 坦 曾经 明确 指出 类 内 的 两 个 对 象 之 间 不 一 定 具 有 很 强 的 相似 性 ， 甚 至 没 
有 相似 性 。 同 样 的 ， 样 本 可 分 性 公理 认为 类 间 对 象 之 所 以 不 相似 ,是 因为 类 间 的 
对 象 都 与 对 应 的 类 表示 最 相似 , 而 不 是 与 其 不 对 应 的 类 最 相似 。 由 于 类 可 分 性 公 
理 已 经 表明 , 不 同 的 类 其 类 表示 并 不 相同 ,因此 , 在 不 同 的 类 具有 不 同类 表示 的 
意义 下 , 类 间 的 对 象 也 不 应 该 相似 。 根据 上 面 的 分 析 可 以 知道 , 类 间 对 象 不 相似 ， 
并 不 意味 着 排除 了 类 间 对 象 的 直接 相似 性 大 于 类 内 对 象 的 直接 相似 性 , 特别 是 在 
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不 考虑 类 认 知 表示 的 信息 下 。 这 与 人 们 的 直觉 也 是 一 致 的 。 

对 于 一 个 聚 类 算法 ， 输 入 为 (X,U,X,Simx), 输出 为 (Y, V, Y,Simy). Jt 
WY, (U, X, Simx, Y, V, Y, Simy) 这 七 元 组 都 未 知 。 为 了 求解 (Y, V, Y, Simy), 一 
般 假 设 类 表示 公理 、 归 类 公理 都 成 立 。 在 聚 类 算法 的 设计 中 , 根据 奥 卡 姆 剃 
刀 准 则 , 可 以 进一步 假设 UV —V, X=Y Wü X = 立 。 因 此 ， 聚 类 模型 可 以 比 
一 般 的 归 类 问题 更 为 简单 。 特 别 地 ， 如 果 更 进一步 , X = Y 也 成 立 ， 则 可 假 
设 (X,Simx) = (Y,Simy)， 此 时 聚 类 输入 与 聚 类 输出 可 以 互 为 表示 。 更 进 一 
W, 可 将 Simy 和 Simy 简 记 为 Sim. 这样, 对 于 聚 类 ， 只 需 考虑 (X,U, X, Sim). 
MEIN, (X,U, X, Sim) 不 仅 表 示 了 聚 类 结果 ， 也 表示 了 聚 类 输入 。 更 加 明确 地 
bi, (X,U, X, Sim) 中 的 (X, Sim) 实际 表示 的 是 聚 类 输出 (Y, Simy )。 

在 以 上 的 假设 下 ,类 紧 致 性 准则 、 类 分 离 性 准则 和 类 一 致 性 准则 也 是 聚 类 分 
析 最 重要 的 算法 设计 准则 。 传统 的 聚 类 分 析 方 法 一 般 分 四 个 部 分 : 数据 表示 、 聚 
类 准则 、 聚 类 算法 以 及 聚 类 有 效 性 评价 。 关 于 数据 表示 , 第 1 章 和 第 2 章 已 经 有 
明确 的 分 析 。 本 章 主要 关注 聚 类 算法 设计 准则 和 聚 类 有 效 性 函数 的 设计 。 





6.2” 聚 类 算法 设计 准则 


下 面 , 分别 讨论 设计 聚 类 算法 中 的 三 条 准则 : 类 紧 致 性 准则 、 类 分 离 性 准则 
和 类 一 致 性 准则 。 


6.2.1 ”类 紧 致 性 准则 和 聚 类 不 等 式 


根据 归 类 公理 部 分 的 分 析 ， 聚 类 算法 的 设计 也 应 该 满足 类 紧 致 性 准则 。 根据 
类 紧 致 性 准则 , 我 们 将 介绍 聚 类 不 等 式 。 

归 类 公理 可 以 根据 将 聚 类 结果 分 为 一 致 聚 类 、 正 则 聚 类 、 重 共聚 类 、 非 正则 
聚 类 、 重 合 聚 类 和 完全 重合 聚 类 。 

归 类 公理 不 仅 可 以 从 理论 上 将 聚 类 结果 分 类 , 还 可 以 导出 一 些 与 聚 类 结果 有 
关 的 不 等 式 ， 如 定理 6.1 和 定理 6.2 所 示 。 根据 这 些 聚 类 不 等 式 , 可 以 设计 出 新 的 
聚 类 算法 。 本 节 首 先 给 出 两 个 聚 类 不 等 式 的 定理 。 

定理 6.1 $ (X,U, X, Sim) 表示 给 定数 据 集合 X = {11,22 ,ZN} 的 聚 类 
结果 。 如 归 类 公理 成 立 , 则 不 等 式 (6.1)~(6.4) 成 立 : 


[[Sim(x, xz) > [ [Simer Xow) (6.1) 
k k 





>》 Sim(xe, Xz) 2 > Sim(zx, Xóa) (6.2) 
k k 
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[ [Sim xz) > [I 2: aiSim(zx, Xi) (6.3) 
Y Sim(xe, Xz) > Y] f(D oiaSimins, x) (6.4) 


其 中 69) 是 从 {1,2,… N} 到 (2,0) 的 函数 , a 0, ag = 1; 了 是 上 
i=1 
函数 , vt e Ry, f(g(t)) =t- 
证 明 
1. 由 于 £& = argmaxiSim(zk,Xi)， 可 得 不 等 式 Sim(zx, Xz;) Sim(zk， 
Xow) > Oo HITE AI, Vk, Fr = zi 成 立 。 因 此 知道 Sim (cy, Xj) > 
Sim(z,, Xs) > 0。 让 下 标 大 遍历 从 1 到 N,， 可 得 N 个 不 等 式 , 将 这 些 不 
等 式 相 乘 可 得 不 等 式 (6.1)。 
2. 类 似 地 , 可 得 不 等 式 Sim(zk,X 均 ) 2 Sim(zk, Xo(k)) 2 0. 令 下 标 大 从 1~ N 
对 不 等 式 求 和 可 得 到 不 等 式 (6.2)。 
3. Vi, 不 等 式 Sim(zh, Xz;) > Sim(zx, Xs) > 0 成立 , 因此 不 等 式 (6.5) 成 立 。 
a,Sim(r,, Xz) > o;Sim(ry, Xi) > 0 (6.5) 
令 下 标 ; 遍历 从 1 ~ c, 由 不 等 式 (6.5) 可 得 c 个 不 等 式 , 将 这 些 不 等 式 求 和 
可 得 不 等 式 (6.6); 
aiSim(ze Xz) 2 SO oiSim(zi, Xi) >0 P 




















由 于 六 as = 1, 按照 下 标 从 1 ~ N 得 到 的 不 等 式 (6.6) HR, 可 证 不 等 
式 (63). 
4. 因为 f 是 凸 函数 ,因此 不 等 式 (6.7) 满足 。 
Y od (Sims, X)) > F(Z agim X) (90 


因为 vt € Ry, f(g(t)) — t. 可 由 不 等 式 (6.7) 得 不 等 式 (6.8)。 
Y aisim(ee, X) > f(D aig(Sim(ax, Xi))) (6.8) 

















利用 不 等 式 (6.6) 可 证 不 等 式 (6.4) . 
定理 6.1 证 明 完 毕 。 口 


cx 
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在 6.1 节 中 我 们 提 到 , 聚 类 算法 的 结果 可 以 用 (X, U, X, Sim) Bk (X,U, X, Ds) 
表示 。 与 定理 6.1 类 似 , 可 证 明 如 下 定理 6.2。 

定理 6.2 $ (X,U, X, Ds) 是 给 定数 据 集 X = (21, za,… c) 的 聚 类 结果 
如 果 归 类 公理 成 立 , 则 不 等 式 (6.9)~(6.12) 成 立 。 





DDs(zx, Xz;) < > Ds(zi, Xo) (6.9) 
k k 
> Ds(ze Xz) < > (x aag(Ds(zh X; 2)) (6.10) 
k 
II»« rr, Xz) < [Iso Xo) (6.11) 





[[ Psr Xa) (Ee (Ds(zr, X; D) (6.12) 
k k 
其 中 (k) 是 从 {1,2,… , N} 到 (1,2, --- ,c} 的 函数 , Vt € Ry, f(g(£)) = t, f EM 
函数 ,a > 0H Ya =I. 





定理 6.1 和 定理 6.2 给 出 了 聚 类 结果 的 一 些 量化 属性 。 很 明显 ,定理 6.1 和 定 
EE 6.2 表明 聚 类 结果 应 该 达到 某 些 函数 的 最 优 值 ， 理 论 上 这 可 以 导出 聚 类 算法 ， 
我 们 将 在 第 7 章 对 此 论题 进行 讨论 。 

在 本 节 中 , 我 们 介绍 了 部 分 聚 类 不 等 式 。 显 然 , 除了 定理 6.1 和 定理 6.2 中 的 
聚 类 不 等 式 外 , 还 可 以 设计 新 的 聚 类 不 等 式 ， 有 兴趣 的 读者 可 以 自行 研究 


6.2.2 ”类 分 离 性 准则 和 重合 类 非 稳定 假设 


聚 类 结果 也 应 满足 类 可 分 性 公理 。 考 虑 到 类 可 分 公理 太 弱 ,因此 需要 进行 进 
一 步 增强 。 也 就 是 说 ， 类 分 离 性 准则 对 于 聚 类 分 析 也 有 重要 的 参考 价值 。 谱 聚 类 
算法 的 初始 目标 函数 是 根据 类 分 离 性 准则 设计 的 乌 习 。 具体 细节 ， 有 兴趣 的 读者 
可 以 自行 推导 。 

除 此 之 外 , 文献 [6] 在 设计 聚 类 算法 的 目标 函数 (6.13) 时 , 在 考虑 类 紧 致 性 准 
则 的 同时 , 也 考虑 了 类 分 离 性 准则 。 在 以 上 两 个 准则 的 约束 下 , 文献 [6] 设计 的 聚 
类 算法 最 小 化 目标 函数 (6.13): 


e N 
x 32 Ds Xe Xi) ~ Tu — Xill? (6.13) 


i—1 k=1 




















其 中 Ds(zx, Xi) = ||zx — Xil? Vk, 9 uis = 1, m > 1, y > 0. 
ici 
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显然 , 目标 函数 (6.13) 中 的 第 一 项 考虑 的 是 类 紧 致 性 准则 ， 第 二 项 考虑 的 是 
类 分 离 性 准则 。 

另外 , 虽然 满足 类 可 分 性 公理 可 能 太 弱 , 但 是 由 于 缺少 预先 给 定 的 样本 类 标 
对 聚 类 结果 进行 强制 约束 ,也 不 能 保证 所 有 的 聚 类 结果 都 满足 类 可 分 公理 。 实际 
E, 聚 类 算法 有 时 也 会 输出 重合 类 , 特别 是 迭代 型 聚 类 算法 , 如 Rose 就 曾经 研究 
过 决定 性 退火 聚 类 算法 中 在 高 温 条 件 下 出 现 的 重合 类 问题 内。 一 般 地 ,如 果 聚 类 
算法 产生 了 重合 聚 类 结果 ,其 不 能 是 算法 的 稳定 聚 类 结果 ， 此 即 为 重合 类 非 稳定 
假设 。 按 照 这 个 假设 , 可 以 研究 部 分 聚 类 算法 的 参数 选择 问题 , 有 兴趣 的 读者 , 请 
研读 文献 [18,19]。 


6.2.3 ”类 一 致 性 准则 和 和 迭代 型 聚 类 算法 


对 于 聚 类 算法 , 一 般 假设 类 表示 唯一 公理 一 定 成 立 。 但 是 , 实际 情况 显然 不 
一 定 成 立 。 因此 , 这 时 候 设计 聚 类 算法 需要 考虑 类 一 致 性 准则 , 即 需 要 使 得 输入 
端的 外 部 指称 与 输出 端的 内 蕴 指 称 相同 。 

对 于 聚 类 算法 来 说 , 由 于 (U, X; Simx, V. Y; Simy) 都 未 知 , 直接 计算 输入 端 
的 外 部 指称 与 输出 端的 外 部 指称 之 间 的 误差 大 小 不 现实 。 对 于 聚 类 来 说 , 可 以 设 
想 输入 端的 类 外 部 表示 由 输出 端的 类 内 部 表示 产生 。 反 之 , 输出 端的 类 内 部 表示 
可 由 输入 端的 类 外 部 表示 产生 。 由 此 , 构造 一 个 聚 类 算法 的 想法 是 反复 迭代 类 的 
输入 外 延 表 示 和 其 对 应 的 输出 类 内 部 表示 , 使 其 满足 类 表示 唯一 性 公理 。 文 献 中 
也 存在 这 样 的 聚 类 算法 ， 见 文献 [1,2]。 


6.3 BRAKE 


由 于 也 未 知 ， 聚 类 是 一 种 无 监督 的 学 习 方法 ,其 主旨 在 发 现 数据 集 的 隐 含 结 
构 。 但 是 ， 聚 类 算法 给 出 的 聚 类 结果 是 否 就 是 数据 集合 的 最 佳 隐 含 结构 呢 ? 一 般 
地 , 找到 数据 集合 的 最 佳 隐 含 结构 是 NP 难 问题 。 实 用 的 聚 类 算法 都 是 近似 算法 ， 
只 能 得 到 数据 最 佳 隐 含 结构 的 近似 解 。 因 此 需要 验证 聚 类 结果 的 有 效 性 ， 即 考察 
聚 类 结果 与 数据 真实 的 最 佳 隐 含 结构 差别 有 多 大 。 

验证 聚 类 结果 的 有 效 性 , 一 般 会 用 不 同 于 聚 类 准则 的 聚 类 有 效 性 指标 来 度 
量 。 通常 分 为 外 部 方法 和 内 药方 法 。 


6.3.1 ”外 部 方法 
外 部 方法 假设 数据 集 已 经 被 标注 , 即 数据 集中 的 样本 类 标 已 知 , 通过 比较 聚 
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类 结果 与 已 知 类 标的 相似 程度 来 判断 聚 类 质量 的 优 劣 , 并 据 此 设计 合适 的 聚 类 有 
效 性 指标 。 这 样 设计 的 聚 类 有 效 性 指标 称 为 外 部 聚 类 有 效 性 指标 。 此 时 一 般 采 用 
类 一 致 性 准则 。 如 常见 的 Rand index"!, 其 公式 (6.14) 显然 符合 类 一 致 性 准则 。 





Q1 十 Q4 


Rand(U,V) = — = _ 
BUUT al 十 aa + a3 + a4 


(6.14) 














其 中 , ay ye “= 1) az patu -1) nre Š y az 
2 

pel Y zy tu D S LUN 0.5( Sn so) qu S 
al 一 aa — a3, Nij 表示 在 划 U 分 为 i 类 而 在 V 分 为 7 类 的 样本 数目 , ni, = 
Mn mg Mn Ling = =N. SES, ay AERA EME U AV 两 个 样本 
j i i j 
属于 同一 类 的 样本 对 数目 ，as 表示 在 划分 矩阵 U 和 VV 两 个 样本 不 属于 同一 类 的 
样本 对 数目 ，as 表示 在 划分 矩阵 U 和 VV 的 样本 对 中 第 一 个 属于 同一 个 类 而 第 二 
个 不 属于 同一 类 的 样本 对 数目 ,as 表示 在 划分 矩阵 U 和 VV 的 样本 对 中 第 一 个 属 
于 不 同类 而 第 二 个 属于 同一 类 的 样本 对 数目 。 

注意 到 Rand index 随 聚 类 数 增加 而 有 增加 的 趋向 ，1985 年 ，Hubert 和 
Arabie 将 其 修正 为 adjusted Rand index’, 公式 为 (6.15)。 


Q1+ a4 5( a1 十 Q4 ) 
0.5N(N — 1) 0.5N(N — 1) 
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fees (sss - 5) 
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DI NV) 


2 
.ni(n;—1 ^nj(n;—1 
= (ns DD = ) 


* ni. (n; 1) : ^ n(n 1) i j 
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(6.15) 


另 一 个 常用 的 聚 类 有 效 性 外 部 方法 是 Normalized Mutual Information?!, 其 
公式 为 (6.16), 显然 其 遵循 类 一 致 性 准则 。 
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(6.16) 





6.3.2 ”内 药方 法 


数据 集 在 一 般 情况 下 是 未 标定 的 , 因此， 外 部 方法 通常 不 适用 。 在 这 种 情况 
下 ， 需 要 从 聚 类 的 内 在 需求 出 发 ， 考察 类 的 紧 致 性 、 分 离 性 以 及 类 表示 的 复杂 性 
等 聚 类 需求 来 评估 聚 类 优 劣 ， 由 此 设计 的 聚 类 有 效 性 指标 称 为 内 蕴 聚 类 有 效 性 
指标 。 

当 设计 内 蕴 聚 类 有 效 性 指标 时 , 主要 从 三 个 方面 度量 聚 类 的 有 效 性 。 一 个 是 
度量 各 个 聚 类 的 分 离 程度 ,理论 上 类 分 离 程度 越 大 ， 聚 类 结果 越 好 ,这 与 类 分 离 
性 准则 一 致 。 一 个 是 度量 每 个 类 内 的 内 在 紧 致 性 。 理 论 上 , 类 紧 致 性 越 大 , RKA 
果 越 好 , 这 与 类 紧 致 性 准则 一 致 。 一 个 是 度量 各 个 类 表示 的 复杂 度 , 在 可 行 的 类 
表示 中 选择 简单 的 , 这 与 奥 卡 姆 闲 刀 准则 一 致 。 即 , 设计 内 蕴 聚 类 有 效 性 指标 时 
要 遵循 类 分 离 性 准则 、 类 紧 致 性 准则 和 奥 卡 姆 剃刀 准则 。 参 考 文献 [17] 也 指出 ， 
设计 内 列 聚 类 有 效 性 指标 要 考虑 类 分 离 性 准则 和 类 紧 致 性 准则 。 

但 是 , 内 蕴 聚 类 有 效 性 指标 不 仅 需 要 判断 什么 是 好 的 聚 类 结果 ， 也 需要 判断 
什么 是 坏 的 聚 类 结果 。 对 于 聚 类 来 说 , 完全 重合 归 类 结果 或 者 绝对 无 信息 划分 显 
然 是 最 不 可 能 接受 的 聚 类 结果 。 一 般 情况 下 , 重合 归 类 结果 或 者 无 信息 划分 也 是 
不 能 接受 的 聚 类 结果 。 理 论 上 , 重合 归 类 结果 彻底 违反 了 类 可 分 公理 。 因 此 , 一 
个 好 的 聚 类 结果 应 该 与 重合 归 类 结果 相差 较 远 。 这 种 观察 对 设计 内 蕴 聚 类 有 效 
性 指标 是 有 用 的 , 因此 可 导出 另 一 个 基于 类 可 分 性 公理 的 设计 聚 类 有 效 性 指标 的 
准则 。 

极 值 准则 : 一 个 好 的 内 列 聚 类 有 效 性 指标 应 该 将 重合 归 类 结果 判断 为 最 劣 
RK. 

由 此 可 以 知道 , Berk AM BS SHE Hts BE HE OS RBE, KIA PE 
BS CEL HE DU A -F 8 58 RE, HR E Uc ARRA IUE RS 不 同 的 聚 类 
准则 设计 不 同 的 类 有 效 性 指标 。 例 如 ， 划 分 系数 Ve = Y Ys ud, MRAM 


Ve = x E X anu 遵从 类 紧 致 性 准则 。 
i k 


下 面 以 几 个 文献 中 常见 的 聚 类 有 效 性 指标 为 例 ,说 明 其 设计 准则 与 上 述 的 聚 
类 有 效 性 指标 设计 准则 一 致 。 
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Xie-Beni 指标 H 是 模糊 C 均值 算法 的 聚 类 有 效 性 指标 , 定义 如 下 : 


ce N 
D 3 viller -Xll 


U, sol ket 6.17 
XB(X,U, X) N x mings [X — Xj? (6.17) 








XF XB(X,U, X) 来 说 , 分 子 表示 各 个 类 的 紧 致 性 , 分 母 表示 类 之 间 的 分 离 度 。 因 
Jt, XB(X,U, X) 值 越 大 ， 聚 类 结果 越 差 ; XB(X,U, X) Wh, 聚 类 结果 越 好 。 
显然 ,重合 划分 使 XB(X,U, X) 趋 近 无 穷 大 , 被 认为 是 一 个 非 正则 聚 类 结果 。 显 
然 , XB(X,U, X) 同时 考虑 了 类 紧 致 性 、 类 分 离 性 和 极 值 准则 。 虽 然 Xie-Beni 指 
标 不 是 由 归 类 公理 导出 的 聚 类 有 效 性 指标 , 但 确实 与 其 一 致 。 

同样 的 分 析 对 于 Davies-Bouldin(DB) 48x !9 和 CH(X, U, X)!9. 也 是 成 立 
的 。 这 里 ， 





D dX) E dX) 


= 1 TREX: | TkEXI 
DB(GU X) = aye mar dQt, Xj xm * AX, X) xj 





c N 
(N - 935 >> wil Xi - ul? 2.5 
CH(X, U, X) i=1 k=1 = k 


c N ? 
(c 1) 35 >》 uP, Xi — zrl? 


i=l k=l 
文献 中 常见 的 用 来 评估 聚 类 结果 的 内 药方 法 还 有 最 小 描述 长 度 原则 (31. 

最 小 信息 原则 [9、Bayesian Information Criterion?! 和 Akaike Information 

Criterion] 等 ， 这 些 方法 遵循 奥 卡 姆 剃刀 原则 。 有 兴趣 的 读者 请 自行 阅读 。 











T 


延伸 阅读 


本 章 对 于 聚 类 分 析 的 理论 讨论 假定 怀 = 工 ， 而 现在 的 聚 类 分 析 有 些 算法 已 经 
放弃 了 和 = 工 假设 ， 比 如 著名 的 谱 聚 类 算法 已 引 。 但 是 为 了 简单 起 见 ， 本 书 对 于 
谱 聚 类 算法 不 予 讨论 ,有 兴趣 的 读者 可 以 自行 研讨 。 

关于 聚 类 理论 的 研究 ， 曾 经 几经 波折 。 在 聚 类 分 析 20 世纪 70 年 代 刚刚 成 为 
研究 热点 之 时 ， 就 曾经 有 人 研究 聚 类 分 析 公理 化 外。 在 本 书 提出 的 机 器 学 习 公 理 
化 以 前 , 大致 有 三 条 聚 类 公理 化 的 思路 。 第 一 条 思路 ， 是 对 聚 类 算法 的 目标 函数 
进行 公理 化 。 但是, 聚 类 算法 的 目标 函数 变化 多 端 , 现 有 的 成 果 基 本 是 针对 特殊 
聚 类 算法 的 目标 函数 的 ， 如 文献 [21,22]。 第 二 条 思路 ,是 将 聚 类 算法 看 做 一 个 输 
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入 输出 之 间 的 聚 类 映射 ， 试 图 将 聚 类 映射 公理 化 。 根 据 这 一 思路 ， 聚 类 算法 被 定 
义 为 从 N 个 对 象 的 特征 矩阵 到 划分 甜 阵 的 聚 类 映射 时 ，Wright 于 1973 年 提出 了 
聚 类 映射 应 该 满足 的 十 二 条 公理 。 但 是 这 十 二 条 公理 太 严 ,实际 中 只 有 很 少 的 聚 
类 算法 满足 这 些 公 理 。 当 聚 类 算法 被 定义 为 从 N 个 对 象 之 间 的 距离 矩阵 到 划分 
和 矩阵 的 聚 类 映射 时 ，Jardine 和 Sibson 在 1971 年 针对 层次 聚 类 算法 的 聚 类 映射 建 
立 了 一 个 公理 化 框架 Ba。 在 2002 4, Kleinberg 同样 地 将 聚 类 算法 被 定义 为 从 N 
个 对 象 之 间 的 距离 矩阵 到 划分 矩阵 的 聚 类 映射 时 ， 其 提出 了 聚 类 映射 应 该 满足 的 
Kleinberg 聚 类 三 公理 , 证 明了 一 个 聚 类 不 可 能 性 定理 : 即 任何 聚 类 算法 不 能 满足 
Kleinberg 三 聚 类 公理 LA, P= RER ERKA AERA 〈 聚 类 评估 函数 ) 公理 
化 。Ackerman 和 Ben-David 提出 了 一 些 满足 Kleinberg 三 聚 类 公理 的 聚 类 有 效 
性 函数 28] 。 

应 该 说 Kleinberg 聚 类 三 公理 影响 巨大 , 极 大 地 推动 了 聚 类 公理 化 问题 的 研 
Ro 后 续 的 聚 类 公理 化 研究 几乎 都 是 以 Kleinberg 聚 类 三 公理 为 蓝本 的 。 遗憾 的 
Æ, 以 上 这 些 研究 并 没有 得 到 一 个 所 有 聚 类 算法 都 遵守 的 公理 化 体系 。 因 此 ,这 
三 条 研究 思路 对 于 聚 类 公理 化 的 研究 只 具有 历史 价值 。 上 述 三 条 研究 思路 的 失败 
之 处 在 于 忽略 了 对 象 的 特性 表示 。 而 聚 类 算法 的 设计 基础 严重 依赖 于 对 象 的 特性 
表示 。 对 象 的 特性 表示 不 同 ,， 对 应 的 聚 类 算法 截然 不 同 。 正 是 注意 到 这 一 点 , 车 
者 给 出 了 聚 类 公理 化 的 第 四 条 道路 , 即 从 研究 聚 类 算法 的 输入 输出 表示 出 发 , 研 
究 类 表示 的 基本 性 质 , 由 此 与 徐 宗 本 院士 一 起 得 到 了 一 个 初步 的 聚 类 公理 化 体系 
B6] ， 并 成 功 将 其 扩展 成 整个 机 器 学 习 算 法 遵循 的 公理 化 框架 21 。 





习 题 
l. 试 给 出 生活 中 使 用 聚 类 分 析 的 一 个 例子 。 
2. 试 给 出 几 本 聚 类 分 析 的 专著 ， 并 加 以 简单 评述 。 


3. 试 给 出 本 章 中 没有 列举 的 文献 中 出 现 过 的 聚 类 有 效 性 指标 ， 并 论证 其 是 否 与 本 章 提 出 的 
聚 类 有 效 性 指标 设计 准则 相 一 致 。 
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第 7 章 聚 类 算法 


AFAJ NKR, 一 致 而 百 虑 。 
一 一 《周易 。 REP) 


正如 前 章 所 述 , 聚 类 分 析 属 于 归 类 中 的 无 监督 多 类 问题 。 最 简单 的 聚 类 问题 
是 假设 X = YY， 由 于 归 类 公理 成 立 , 此 时 聚 类 结果 可 用 (X,U, X, Sim) KER. 
因此 , 对 于 一 个 具体 的 聚 类 算法 来 说 , 首先 需要 确定 类 的 认 知 表示 。 幸运 的 是 , 单 
类 归 类 问题 研究 ,如 单 类 密度 估计 、 单 类 回归 问题 和 单 类 数据 降 维 ， 已 经 给 出 了 
单 类 的 认 知 表示 。 在 单 类 回归 问题 中 , 类 的 认 知 表示 是 一 个 确定 性 函数 。 在 单 类 
密度 估计 中 , 类 的 认 知 表示 是 一 个 概率 密度 函数 。 在 单 类 数据 降 维 中 , 类 的 认 知 
表示 复杂 多 变 , 不 同 的 数据 降 维 算法 有 不 同 的 单 类 认 知 表示 。 

采用 不 同 的 类 认 知 表示 会 导致 不 同 的 聚 类 算法 。 容 易 知 道 , 不 同 的 类 认 知 表 
示 , 对 应 的 聚 类 算法 复杂 度 也 不 同 。 根 据 奥 卡 姆 剃刀 准则 , 人 们 优先 选择 简单 的 聚 
类 模型 , 即 优先 选择 简单 的 类 认 知 表示 。 显 然 , 在 用 (X,U, X, Sim) 代表 的 聚 类 结 
Rp, 如果 类 的 认 知 表示 X 直接 用 X = (Xa, Xo, Xo) 来 表示 , 换 句 话 来 说 ， 
类 的 认 知 表示 既是 其 外 部 表示 , 也 是 其 认 知 表示 。 HNE F, (X,U, X, Sim) 
显然 可 以 进一步 简化 , 这 是 最 简单 的 聚 类 模型 。 实际 上 , 这 与 认 知 科学 中 的 概念 
样 例 理论 是 一 致 的 。 在 概念 结构 的 样 例 理论 中 ,一 个 概念 是 通过 具体 的 样 例 来 表 
示 的 , 新 的 样 例 是 通过 与 已 有 样 例 的 相似 性 进行 归 类 的 。 认 知 科学 已 经 证 明 幼儿 
归 类 是 基于 样 例 相 似 性 的 。 因此 ， 本 章 首先 讲述 这 种 聚 类 算法 , 这 种 算法 一 般 称 
为 层次 聚 类 算法 。 








7.1 ” 样 例 理 论 : 层次 聚 类 算法 
假设 类 的 认 知 表示 就 是 类 的 外 部 表示 , WVA X, = X;。 这 样 就 需要 
定义 Dis(z, Xi) = Dis(z, Xi) 或 者 Sim(z, Xi) = Sim(z,Xi)。 容 易 想 到 最 简 
单 的 类 相似 性 映射 为 Dis(z, X;) = minz,exsnz#z1d(z,zi) 或 者 Sim(z, Xi) = 


maxz, e X; Acn, S(T, 1)» 
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在 以 上 假设 下 ,如果 rr € Xi;， 则 由 归 类 等 价 公理 可 知 , Tk = ik = i 必 成 
立 。 根据 样本 可 分 性 公理 , 可 知 i = argmax, Sim(zk; Xj) AIE, WR zk © X; 
Ais j, W Sim(zx,Xi) > Sim(zx,Xi)。 由 此 可 知 ， 如 果 zk € Xi, WOR 
Jr, € Xi ^u, £ £p 使 得 s(zx, 11) = Sim(zx, Xi) A Vr, € Xi, 8(xg, 21) > S(p, £r) 
成 立 。 因 此 , 每 个 对 象 应 该 与 其 最 相似 的 对 象 归 为 同一 类 。 

根据 这 个 推论 ,有 两 种 思路 来 发 现 最 终 的 聚 类 结果 和 X = X1, Xo, Xo) 
一 种 是 将 数据 集中 的 对 象 根据 相似 性 进行 凝聚 , 遵循 类 紧 致 性 准则 ,使 得 到 的 聚 
类 结果 类 内 相似 性 最 大 。 另 一 种 是 将 数据 集中 的 对 象 根据 相似 性 进行 分 裂 ， 遵循 
类 分 离 性 准则 , 使 得 到 的 聚 类 结果 类 间 相 似 性 最 小 。 但 是 , 第 二 种 思路 需要 首先 
构造 对 象 之 间 的 相似 性 网 络 ， 比 第 一 种 思路 要 复杂 一 些 。 因 此 , 首先 讨论 基于 凝 
聚 的 层次 聚 类 算法 。 

凝聚 层次 聚 类 算法 的 基本 思想 是 将 最 相似 的 对 象 合并 。 显 然 ， 对 象 合并 后 形 
成 一 个 新 的 虚拟 对 象 , 该 虚拟 对 象 实质 是 一 个 集合 。 合 并 之 后 , 对 象 个 数 会 减少 一 
个 ,此 时 , 需要 重新 计算 对 象 之 间 ( 可 能 是 两 个 虚拟 对 象 ) 的 直接 相似 度 , 这 就 需要 
定义 任意 两 个 集合 之 间 的 相似 度 。 考 虑 到 Sim(z, X;) =Maxz,cx,rr¢n, S11); 可 
以 定义 任意 两 个 集合 Di, D; 之 间 的 相似 度 为 Sim(D;, D;) =MaXe,€D,,21€D; Ski» 如 
果 DAD; = e. HRY LMR, 直到 对 象 个 数 为 C, Hirth X — (X1. Xo, Xo} 

根据 上 面 的 分 析 , 我 们 可 以 描述 凝聚 型 层次 聚 类 算法 的 聚 类 过 程 如 下 。 
算法 7.1 凝聚 型 聚 类 算法 
WA: S(X) 表示 数据 集 X 的 相似 度 和 矩阵; 初始 划分 U = Iw: WB: 类 个 数 为 C。 
输出 : 归 类 结果 (X,U, X, Sim). 
初始 化 : 令 č= N, v1 Sk < č, Dr = {£r} 
迭代 : 
14é-2é-1, 计算 出 最 近邻 , 比如 Di 和 Di。 
2) 合并 Di 和 Di 形成 一 个 新 虚拟 对 象 。 











直到 = CO, 4 Vi, Xi = Di, 输出 Xi, X2, , Xo. E 
显然 上 述 算法 中 , 如 果 采 用 Sim(D; Dj) = maxz,ep,2.€D, Serv 就 可 以 得 到 


Single Linkage 聚 类 算法 。 如 果 VkVI, k Al, max, s(k, m) # max, s(l, mm)， 容 易 
证 明 Single Linkage 聚 类 算法 完全 符合 归 类 公理 。 在 实际 数据 中 ， 上述 条 件 成 立 
如 果 使 用 相 异 性 来 计算 相似 性 , 可 以 令 d( Di, Dj) = minz,epi,zieD; diis 同样 
可 以 得 到 Single Linkage 聚 类 算法 。 
在 凝聚 型 聚 类 算法 里 ,容易 知道 影响 算法 性 能 的 关键 是 如 何 定义 集合 间 相 似 
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性 或 者 相 异 性 。 定义 不 同 ,导致 的 算法 就 不 会 相同 。 如果 采用 其 他 方法 来 定义 两 
个 集合 之 间 的 相 异 性 ,可 以 得 到 其 他 的 凝聚 型 层次 聚 类 算法 。 下 面 列 出 几 种 文献 
中 常见 的 集合 间 相 异性 度量 。 

d(D;, Dj) = maxzepizieD; dii 可 以 导出 Complete Linkage 聚 类 算法 。 


x dii 


d(Di, Dj) = SEDED 可 以 导出 Average Linkage 聚 类 算法 。 


|Di\|D3\ 
5D Ek > k 


«Ds, Dj) = lm = ml Jet mi = S m, = D. 

有 兴趣 的 读者 , 可 以 分 析 由 上 述 相 异性 度量 导出 的 聚 类 算法 得 到 的 聚 类 结果 
是 否 符 合 归 类 公理 。 

分 裂 的 层次 聚 类 与 凝聚 层次 聚 类 相反 , 是 一 种 自 顶 向 下 的 策略 。 它 首先 将 整 
个 样本 集 看 作 一 个 类 , 然后 根据 类 分 离 性 指标 , 将 较 大 的 类 分 裂 为 较 小 的 类 , E 
复 这 一 过 程 直 到 每 个 样本 都 为 一 个 类 , 或 者 达到 了 某 个 终结 条 件 为 止 。 在 复杂 
网 络 的 社区 发 现 问 题 研究 中 ,著名 的 Girvan and Newman (GN) 算法 [19 就 是 一 
个 分 裂 的 层次 聚 类 算法 。 该 算法 最 重要 的 部 分 是 定义 了 无 向 图 上 的 边 介 数 (edge 
betweenness) 概念 (所谓 边 介 数 是 指 图 中 通过 该 边 的 最 短路 径 的 条 数 ), 通过 依次 
删 去 图 上 具有 最 高 边 介 数 的 边 , 直至 最 后 每 个 连通 分 支 中 只 有 一 个 顶点 。 

层次 聚 类 算法 在 聚 类 的 过 程 中 ,形成 了 一 个 对 象 集合 的 层次 结构 ， 聚 类 过 程 
可 以 用 分 层 的 树 状 图 来 表示 , 这 也 是 该 类 算法 称 为 层次 型 聚 类 算法 的 原因 。 现实 
世界 中 对 于 对 象 的 分 类 也 是 有 层次 的 , 不 同 的 层次 导致 不 同 的 概念 ,通常 一 个 概 
念 包含 很 多 子 概念 , 子 概念 又 包含 很 多 更 小 的 子 概念 。 比 如 , 在 生物 分 类 学 中 , 整 
个 生物 界 被 分 成 各 种 门 , 门 又 包含 各 种 纲 , 纲 包含 名 种 目 , 目 又 由 各 种 科 组 成 , 等 
等 , 直到 具体 的 各 种 个 体 生物 。 换 句 话 说 , 生物 分 类 学 存在 “层次 ”结构 。 

层次 聚 类 算法 的 思想 比较 简单 ,是 最 常用 的 可 视 化 聚 类 算法 , 但 也 存在 一 定 
的 缺点 。 首先 算法 的 时 间 和 空间 复杂 度 都 是 O(N?) CN 为 样本 的 个 数 ), 其 次 层 
次 聚 类 是 按照 合并 或 分 裂 的 次 序 进行 的 ,具有 不 可 逆转 性 和 不 可 更 改 性 ,因而 一 
且 某 一 步 合 并 或 分 裂 选择 得 不 恰当 , 那么 就 会 影响 进一步 的 操作 ， 直 到 影响 到 最 
终 的 聚 类 效果 。 














7.2 ”原型 理论 : 点 原型 聚 类 算法 


如 果 认 为 类 的 认 知 表示 是 一 个 原型 , 这 样 的 聚 类 算法 可 称 为 基于 原型 理论 的 
聚 类 算法 。 显然 , 最 简单 的 类 原型 为 空间 中 的 一 个 固定 点 。 因此 , 类 的 认 知 表示 可 
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由 特定 空间 中 的 一 个 点 来 表示 。 由 此 ,类 相似 性 映射 (或 者 类 相 异 性 映射 ) 的 设 
计 变 成 了 关键 。 容 易 想到 , 类 认 知 表示 的 特定 空间 如 果 与 对 象 所 在 的 空间 一 致 时 ， 
类 相似 性 映射 (或 者 类 相 异 性 映射 ) 的 设计 最 为 简单 。 

根据 上 面 的 分 析 , 可 以 假定 N 个 对 象 的 输入 特征 表示 X = (risu. ,ZN}， 
第 天 个 对 象 的 输入 特征 表示 zk = [zix, ZT2r,… snp]? AE p 维 空间 的 一 个 点 ,第 
i 类 的 认 知 表示 X: 同样 为 p 维 空间 中 的 一 个 点 X; = [Xu Xu Xp JT 其 中 
1 < i C。 此 时 类 相 异 性 映射 可 以 借用 p 维 空间 的 距离 来 定义 , 显然 不 同 的 定义 
导致 不 同 的 聚 类 算法 。 下面, 讨论 具体 的 聚 类 算法 设计 。 


7.2.1 C 均值 算法 
WAR AIT eR A FEE sales ma ALI X 应 该 使 得 类 内 方差 最 
小 。 每 个 类 的 类 内 方差 可 以 定义 为 : DD wads Zk 六;)。 因 此 可 以 定义 总 类 内 方 


差 (7.1): 
CN 
J 2 X uaDs(zs, Xi) (7.1) 


Joh D us = 1. 
i=1 
理论 上 , 不 同 的 类 相 异 性 映射 可 以 导出 不 同 的 目标 函数 (7.1)。 最 小 化 不 同 的 
(7. 1) 可 以 导出 不 同 的 聚 类 算法 。 在 这 样 的 假设 下 , Xi E p 维 空间 中 的 点 表示 vi 
通常 称 为 类 中 心 。 
如 果 类 相 异 性 映射 Ds(zx, Xi) 是 用 欧 氏 距离 的 平方 来 定义 , BI Ds(zk, Xi) = 


les — Xi = (zk 二 蕊 ,2， 则 可 得 到 均值 聚 类 算法 的 目标 函数 : 


C N 
J=) wallzs — Xil (7.2) 


i=1 k=1 
由 于 存在 两 组 变量 U X 需要 优化 ， 一 个 常用 的 办 法 是 交 车 优 化 ， 即 先 国 定 一 
组 , 优化 另 一 组 。 BEU, MEJ, 需要 计算 OF = 0 WF 
oJ 


N 
gx,- 22, X) =0 (7.3) 


根据 公式 (7.3). 可知 
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Nes UikTk 


X= (7.4) 
pA 


HE X = [Xi Xo, , Xo], 要 最 小 化 也 只 需 考虑 到 如 下 不 等 式 |zx 一 和 | > 
ler 一 XX 直上， 因此 可 以 知道 不 等 式 (7.5) 成 立 : 


C N c 
$1 vallas — Xi? > > ellen — Xa 


i=1 k=1 i=1 k=1 


Cc N 
=o uz ller- Xal? (7.5) 
k=1 
N 
- Ilex - Xal? 


由 不 等 式 (7.5) FR, EEX = [Xi Xo,--- Xe] 时 ， 如 果 m = 

ug —1, Kn i= fks 否则 wk —0, HEP i A a. 此 时 J 了 达到 最 小 值 。 
根据 上 面 的 分 析 , 依据 归 类 等 价 公 理 , 可 用 下 面 的 迭代 算法 找到 局 部 最 优 ， 

主要 实现 步骤 如 下 。 

算法 7.2 C 均值 聚 类 算法 

输入 : 特征 矩阵 F(X) 表示 数据 集 X, WRR UO , feo t = 0; KAB e 最 大 迭代 
次 数 Tus 聚 类 个 数 Co 

输出 : 聚 类 结果 (X,U, X, Ds) 

聚 类 过 程 : 











(1) 固定 划分 矩阵 ， 更 新 类 中 心 : 用 划分 矩阵 UO 更 新 vi, x, O = EL 


(2) 固定 类 中 心 , 更 新 划分 矩阵 : 利用 vi, Xi 中 , UE EE. WR [m] = 1, 4 uG — 1, 其 中 
i= gk; 否则 ut? —0, Xr im. 否则 i e Fe, 则 更 新 ui, 其 他 , uG — o, 
Vl z ks 

(3) 如 果 JU — UHD > e 并 且 t 十 1 < Ty, UY = UHD ¢=t41, 返回 (1); 否则 
U =U), X= XY, 令 输出 聚 类 结果 (X, U, X, Ds). 口 


由 于 X. Ds 是 事先 确定 的 ， 因 此 ， 对 于 C 均值 方法 的 聚 类 结果 输出 ， 可 
以 只 要 求 U, X. KK ESCHDE SEU An. C 均值 算法 简单 、 快 速 , 计算 复杂 度 是 
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O(NCt), 其 中 N 是 数据 点 的 个 数 ，C 为 划分 的 类 的 个 数 , t 是 迭代 次 数 ， 能 够 高 
效 地 对 大 数据 进行 处 理 ; 当 类 在 空间 是 球形 且 类 之 间 具 有 明显 分 割 带 时 ， 能 够 得 
到 较 好 的 聚 类 效果 。 特别 需要 指出 的 是 , 实践 中 , C 均值 算法 是 最 常用 的 聚 类 算 
ik; 理论 上 , C 均值 算法 有 限 步 就 可 以 收敛 到 局 部 最 优 值 点 或 者 鞍点 , 见习 题 。 

但 是 , C 均值 算法 存在 一 些 缺 点 : 需要 预先 指定 聚 类 个 数 C; 对 初始 值 选择 
敏感 ， 不 同 的 初始 值得 到 不 同 的 划分 结 Rs 对 数据 集 要 求 较 高 , 适合 处 理 球形 聚 
FE, 不 适宜 处 理 非 凸 形状 或 者 形状 虽 凸 但 与 球形 差别 大 的 聚 类 或 者 类 内 对 象 个 数 
大 小 差别 极 不 均衡 的 聚 类 ; 算法 对 于 数据 集中 的 “噪声 ”点 敏感 度 高 ; 算法 要 求 每 
个 对 象 属于 每 个 类 的 隶属 度 不 是 1 就 是 0, 但 是 现实 中 有 聚 类 对 象 处 于 两 类 甚至 
多 类 的 边缘 , 等 等 。 文献 四 ] 针对 C 均值 算法 存在 的 这 些 问 题 以 及 改进 算法 做 了 
一 个 很 好 的 综述 ， 有 兴趣 的 读者 可 以 参考 。 

















7.2.2 ”模糊 C 均值 


硬 划分 如 C 均值 聚 类 算法 只 能 将 一 个 样本 划分 到 一 个 类 中 。 但 是 , 一 个 对 象 
绝对 隶属 一 个 类 很 多 时 候 与 实际 应 用 不 符 ， 比 如 一 个 对 象 位 于 两 个 甚至 多 个 类 的 
边缘 ,此 时 将 其 绝对 地 归 为 某 个 类 并 不 合适 , 这 时 显示 其 与 各 个 类 的 相关 程度 似 
平 更 为 合理 。 在 这 种 情况 下 ,划分 矩阵 采用 软 划 分 形式 。 但是, 如果 直接 采用 软 
划分 形式 , 不 加 任何 约束 , 直接 计算 类 内 方差 , 如 7.2.1 节 所 述 , 将 导致 C 均值 算 
法 。 因此 , 一 个 简单 的 思想 是 改变 计 算 类 内 方差 的 方式 。 


考虑 寡 运 算 加 权 的 隶属 度 um, m > 1， x um Ds(zy, Xi) 显然 表示 一 种 广义 
的 类 内 方差 ， 其 中 加 > 1. 因此 可 以 定义 总 类 内 方差 (7.6); 





C N 
JFc™ = » >, up Ds(zy, Xi) (7.6) 
i—1 k=1 
其 中 EwcL Vk, Vi, uy; > Oo 


根据 类 紧 致 性 准则 , 一 个 好 的 聚 类 结果 应 该 使 得 (7.6) 达到 最 小 值 。 
用 拉 格 朗 日 乘 子 法 最 小 化 目标 函数 .Fcm， 可 得 新 的 目标 函数 如 下 : 


L(U, X, Xe, -t(D 
= (7.7) 
其 中 A, 是 拉 格 朗 日 乘 子 。 
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通过 计算 式 (7.7) 的 导数 , 可 得 到 聚 类 中 心 和 素 属 度 的 迭代 公式 如 下 : 











N 
Dee 
X= t (7.8) 
uk 
k=1 
1 
Uik (7.9) 
Y (Ies m 
lite — Xi? 


Ii 
模糊 C 均值 算法 (FCM) 的 目标 是 得 到 数据 集中 数据 点 的 软 划 分 , 度量 划分 
的 准则 与 C 均值 相同 , 即 类 紧 致 性 准则 。 模糊 C 均值 聚 类 算法 是 一 个 简单 的 迭代 
过 程 , 具体 的 实现 步骤 如 下 。 


算法 7.3 模糊 C 均值 聚 类 算法 

输入 : 特征 矩阵 F(X) 表示 数据 集 X, 初始 划分 UO ; WS e; 聚 类 个 数 Cs 迭代 次 数 to 
输出 : 聚 类 结果 (X,U, X, Sim) 

聚 类 过 程 : 

(1) FIKRAYI t = 1; 

(2) 用 划分 矩阵 UC) qiii XO = (100, X900,..., Xo}, 

(3) 用 聚 类 中 心 XO = (3 0, x300,..., Xe 0) 更 新 划分 矩阵 UO; 

(4) 重复 步骤 (1) 和 步骤 (2) HB JU — UD] < e, 输出 聚 类 结果 (X,U, X, Sim). 口 





























上 述 算法 也 可 以 先 初始 化 聚 类 中 心 ， 然后 再 执行 迭代 过 程 。 不论 采 用 何 种 方 
法 ， 从 整个 算法 不 难看 出 ， 整个 计算 过 程 就 是 反复 更 新 聚 类 中 心 和 划分 矩阵 ， 因 
此 这 种 方法 又 称 为 动态 聚 类 或 逐步 聚 类 法 。 

模糊 C 均值 算法 是 应 用 最 广 、 最 灵活 的 一 种 模糊 聚 类 算法 ,最早 由 Dunn 
在 1974 年 提出 m = 2 的 情形 名 ,是 对 硬 C 均值 聚 类 算法 的 一 种 改进 算法 ， 随 
后 被 Bezdek 进一步 推广 到 任意 的 m 并 证 明了 收敛 性 。 FCM 作为 传统 C 均值 聚 
类 算法 的 自然 推广 ,是 最 受 欢 迎 的 模糊 聚 类 算法 , 已 经 成 功 应 用 于 图 像 分 割 、 公 
路 检测 等 诸多 领域 。 其 主要 优点 是 理论 基础 好 , 算法 简单 、 快 速 , 能 有 效 处 理 大 
数据 。 

模糊 C 均值 算法 虽然 相对 高 效 并 应 用 广泛 , 但 是 仍 有 许多 问题 需要 解决 

(1) Bezdek 使 用 模糊 划分 的 概念 在 FCM 算法 的 目标 函数 中 引入 了 新 的 参 
数 -模糊 指标 m. 该 参数 严重 影响 着 FCM 的 性 能 。 因 此 , 如 何 选择 合适 的 模糊 指 
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标 m, 是 有 效 使 用 FCM 必须 面 对 的 问题 。 于 剑 等 人 于 2004 年 提出 了 基于 Hessian 
和 矩阵 的 FCM 算法 模糊 指数 分 析 方 法 外， 从 理论 上 提出 了 FOM 算法 模糊 指数 的 
取 值 范围 。 

(2) FCM 聚 类 算法 采用 欧 几 里 得 距离 作为 相似 度 度 量 ， 适 用 于 每 类 为 球形 
且 类 内 紧密 、 类 间距 大 的 数据 , 不 能 处 理 非 凸 形状 的 数据 。 因 此 选用 不 同 的 距离 
度量 (相似 度 度 量 ) 可 用 来 发 现 不 同 结构 的 数据 集 。 另外, 算法 对 孤立 点 是 敏感 
的 。 针对 于 此 , 文献 中 有 很 多 对 FCM 算法 距离 度量 函数 的 讨论 H7. 最 为 经 典 的 
对 FCM 算法 距离 函数 的 改进 是 GK 聚 类 算法 , 该 算法 由 Gustafson 和 Kessel 于 
1978 年 提出 加。 

(3) 与 硬 划分 等 其 他 聚 类 算法 类 似 , FCM 需要 预先 给 定 划分 类 的 个 数 C 并 进 
行 初始 化 。 目 前 , 尚 没有 很 好 的 确定 聚 类 个 数 的 方法 。 有些 文献 通过 聚 类 中 心 的 
合并 等 思想 , 避免 聚 类 中 心 初始 化 (99。 这 类 算法 也 得 到 了 比较 广泛 的 应 用 。 

















7.3 ”基于 密度 估计 的 聚 类 算法 


容易 知道 , 原始 的 点 原型 聚 类 算法 只 能 发 现在 特征 空间 中 凸 形 的 聚 类 簇 , 而 
不 限制 类 形状 的 层次 聚 类 算法 计算 复杂 性 又 太 高 。 为 了 克服 以 上 缺点 ， 人 们 提出 
了 基于 密度 估计 的 聚 类 算法 。 这 类 算法 中 , 假设 在 样本 空间 中 各 个 类 簇 是 由 一 群 
稠密 样本 点 组 成 的 ， 而 这 些 稠密 样本 点 被 低 密 度 区 域 分 割 。 算 法 的 目的 就 是 通过 
过 滤 掉 低 密度 区 域 ， 从 而 凸显 出 稠密 样本 点 区 域 , 即 发 现 类 簇 。 在 这 类 聚 类 算法 
H, 最 重要 的 是 得 到 数据 的 密度 估计 。 

在 第 3 章 中 , 我 们 介绍 了 密度 估计 方法 。 在 密度 估计 方法 中 , 分 有 参数 和 无 
参数 的 估计 方法 。 因此, 在 基于 密度 估计 的 聚 类 算法 中 , 也 分 基于 参数 密度 估计 
的 聚 类 算法 和 基于 无 参数 密度 估计 的 聚 类 算法 。 在 本 书 中 , 基于 参数 密度 估计 的 
聚 类 算法 选择 了 混合 高 斯 模型 聚 类 算法 ,无 参数 密度 估计 的 聚 类 算法 选择 了 聚 类 
山峰 算法 (mountain method)。 


7.3.1 ”基于 参数 密度 估计 的 聚 类 算法 


基于 参数 密度 估计 的 聚 类 算法 中 ， 最 为 广泛 应 用 的 算法 是 混合 高 斯 模型 
(Gaussian mixture model) 聚 类 算法 。 除 此 之 外 , 也 有 一 些 基 于 参数 密度 估计 的 
聚 类 算法 在 实际 应 用 中 取得 了 不 错 的 结果 。 例 如 ,基于 von Mises-Fisher 分 布 的 
单位 超 球 面 上 的 聚 类 算法 等 。 下面 , 我 们 以 这 两 个 算法 为 例 , 对 基于 参数 密度 估 
计 的 聚 类 算法 进行 描述 。 
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。 基 于 混合 高 斯 模型 的 聚 类 算法 


在 44.1 节 中 ,对 于 单 类 密度 估计 问题 , 在 假设 数据 集 服从 高 斯 分 布 的 情形 
下 , 我 们 介绍 了 高 斯 密度 估计 方法 。 在 聚 类 问题 中 ,如 果 假 设 每 个 类 服从 一 特定 
分 布 ， 而 且 每 个 类 的 样本 数 占 整 个 数据 集 样本 数 的 比率 固定 ,这 样 的 整个 数据 集 
服从 的 分 布 即 是 所 谓 的 混合 模型 (mixture model). 

WX = {ziza ,ZN} 是 来 自 某 混合 密度 的 N 个 数据 ， 且 服从 以 下 分 布 : 





c 
P(xe|©) = Y > riP(zxl0;) (7.10) 
j=1 
c 
st. JO m=l,m>0 (7.11) 
j=1 


显然 ， 这样 一 个 密度 模型 也 可 以 认为 单 类 问题 -密度 估计 问题 。 此 时 ， 单 类 的 
认 知 表示 X = O, 其 中 © = (mim… T0, 0,02, ,bc) 表示 待 估计 的 混合 
分 布 的 参数 ，eB; = (1,0;) 表示 第 ;类 所 服从 的 分 布 参数 ，m 表示 数据 zk 产生 
于 第 了 个 分 布 P(zklb) 的 概率 ，C 是 有 限 混 合 模型 的 分 支 个 数 。 显 然 ,在 混合 
分 布 已 知 的 情形 下 ,样本 的 类 相似 度 和 隶属 度 也 相应 确定 了 。 对 于 一 个 固定 的 
HEX, 说 ,Xi = {mi 0i} 表示 该 类 中 的 样本 服从 密度 p(zx,0;)。 根 据 密度 估计 分 
析 ， 类 相似 性 映射 为 Sim(z, X;) = p(zx.0;) = p(9i)p(zk|9i)。 因此， 可 以 知道 
CPP) qup m = p(0;)。 显然, 当 c 一 工时 ,此 时 ，wx = 1, 本 问题 
PLU 
退化 为 标准 的 密度 估计 问题 。 
更 进一步 , 假设 每 个 类 都 服从 高 斯 分 布 , 则 可 令 9; = (u5, 57). 这 里 , jj, 
Jj J 
表示 第 i 类 高 斯 分 布 的 均值 和 方差 。 特别 地 , 因为 数据 来 自 于 同一 密度 (7.10), 
此 可 以 看 作 已 知 X = {zi1,z2,… ,ZN} 是 来 自分 布 (7.10) 计算 X= O = (0,0) 
的 密度 估计 问题 , 其 中 站 = (mn,72,… To), 9 = (01,02,… ,9c)。 即 将 该 问题 看 
作 单 类 问题 中 的 密度 估计 问题 。 此 时 , X = Y. 假设 密度 估计 的 类 认 知 表示 输 
出 是 六 = ô, 此 时 ， Simy (zx, Ô) = plz); 其 中 Y- (Y, Ys, Yo) O= 























a $ FM P Cc 
(5,0), 分 = (îi, fa, , fc), Ô = (61, 62,--- ,6c), 32 &; = 1,4; 2 0. IERT, 对 
j=l 
于 一 个 固定 的 类 Y, 说 , Y; = {ĝi} Sim(ye, Y;) = Sim(ae, Vi) = p(er, ĝ:) = 
ip (wel) 
一 ， 
D 元 p(zk|0) 
i—1 











p(À;)p(x|Ó)» vir 因此 vin = p(s, 6; lx) = p(Bilrx) = pQYiox)- 
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由 此 可 知 wk 既 表 示 样 本 zx 属于 第 ;类 的 隶属 度 , 也 表示 样本 zx 已 知 时 属于 第 
类 的 后 验 概率 。 
在 以 上 假设 下 ,如果 类 表示 唯一 性 公理 成 立 , BY — X, 则 最 好 的 类 认 知 表 
示 应 该 满足 类 紧 致 准则 。 考虑 到 类 紧 致 准则 希望 类 内 相似 度 最 大 , 由 此 得 到 目标 
函数 (7.12). 
N N 
max II Simy (£p, Ô) = max II» (7.12) 
9 ku 9 kn 
为 了 简化 计算 , 对 公式 (7.12) 两 边 取 负 自 然 对 数 , 求 最 大 变 为 求 最 小 , 得 到 
目标 函数 (7.13): 
N N 
min 5 —In(Simy (zp, ©)) = min > ， 一 In(p(zk|e)) 
d s. (7.13) 


N e 
- min > —In (X ‘p\al6,)) 
TÉ k=1 i=1 


假设 6 固定 , 求 最 小 化 目标 函数 (7.13) MBB 元， 此 时 拉 格 朗 日 乘 子 法 要 求 
最 小 化 目标 函数 : 
N c " c 
min L — min — ln fp(zy|0;) | 十 入 f;—1 (7.14) 
pr=aa ($-a (Esset) (Ea) 
最 小 化 目标 函数 (7.13) 的 必要 条 件 是 目标 函数 (7.13) 的 导数 为 零 , 由 此 得 到 
AA (7.15): 











X A 
oL p(x|8;) 
95 3 : 一 +A=0 (7.15) 
kt fap(zy|8;) 

= 





c 
根据 公式 (7.15) MAR 7 âj = 1,8; > 0, 可 以 知道 和 = N。 由 于 va = 
j=1 


ae 故 由 公式 (7.15) 可 以 得 到 公式 (7.16): 
Y fp(ck|0;) 


4=1 


1 N 
=z Sov (7.16) 
k=1 
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Nes 将 参数 元 固定 , 可 以 求 最 小 化 目标 函数 (7.13) 的 参数 6。 说 得 更 清楚 
,注意 到 p(zx|6;) = (22-95? det($;)-05 exp(-0.5(zy — fis) TD ! (zy — f) 
即 对 ps M S sili e OU Se. 注意 到 OD 一 SEM. 
-X-Tab* XT, 可 得 





det(X)X 7, 











OL Qa ipler) Èr ry — ju) 
Of; c 


EE Decii) 
i 


aL $^ (—0.53, ^ + 0.52; T (zy — Aj) (zy — A) 3; T)fsp(zy|À,) 


0 (7.17) 





























z 0 
Ome k 一 ^ ó 
XO îiplerlô:) 
i=1 
(7.18) 
因此 , 可 知 
aL 
2j, = var (zr — ju) = 0 (7.19) 
m ~ k=1 
aa = >》 = ((-0.55;7 + 0.55; 7 (we — ĝi) (xr — Ai) 5; 7))va =0 — (7.20) 
i K=1 
得 到 
h 
> VikTk 
fi, = E (7.21) 
Uik 
k=1 
N 
X val zy — Îi) (Er — fu). 
y= = E (7.22) 
>. Vik 
k=1 


重复 以 上 计算 , 直到 参数 不 再 有 明显 的 变化 为 止 。 此 时 , j = argmax; vas k = 
1,2,… ,Nij = 1,2,… ,CO， 就 认为 样本 zk 来 自 第 3 个 子 分 布 , 或 者 说 ,zx 属于 
第 7 个 类 。 

现 将 基于 高 斯 混合 模型 的 聚 类 算法 总 结 如 下 。 
算法 7.4 基于 高 斯 混合 模型 的 聚 类 算法 
输入 : 观测 数据 X = {z1, zz, … an}, 高 斯 混合 模型 ; 
输出 : V = [va] 工 =e。 
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(1) 初始 化 参数 OO = (a(9, a£. ... 8D, 0( 009... ,69)) FERRIER: 
(2) 更 新 类 的 外 部 表示 : 当 后 已 知 时 ,更 新 每 个 样本 的 隶属 度 va 








,的 二 HH p(ziJ0(?) (7.23) 
ik — c i: 
Ys (xe |60) 
j=1 
(3) 更 新 类 的 内 部 表示 : 已 知 每 个 样本 的 隶属 度 wik, 更 新 O 
aem Lyp (7.24) 
i = N ik g 
k=1 
Y vag 
(t+1) _ k= 
aft) = = __ (7.25) 
pu 
k=1 
N 
So ee — P) — APT 
SCENE 
gen k=1 x (7.26) 
2 
k=1 
(4) 重复 上 述 (2). (3) 两 步 直 到 收敛 。 [1 





通过 和 迭代 算法 ， 可 以 估计 出 混合 高 斯 分 布 的 参数 。 假 设 一 类 数据 从 同一 
分 布 产 生 ， 就 可 以 通过 隶属 度 对 数据 进行 分 类 。 由 于 类 相似 度 Simy (zx, Yi) = 
p(0i)p(zk|6;)， 容易 证 明基 于 混合 高 斯 分 布 的 聚 类 算法 遵从 归 类 公理 。 

基于 混合 高 斯 分 布 的 聚 类 算法 是 最 常用 的 基于 概率 的 划分 聚 类 算法 。 该 算法 
有 较 好 的 自我 调节 能 力 , 在 初始 值 不 是 特别 差 (所 有 样本 属于 同一 类 ) 的 情况 下 ， 
通过 自我 调节 均 可 以 得 到 较 好 的 聚 类 结果 , 但 是 该 算法 也 存在 收敛 于 局 部 极 值 点 
的 缺陷 。 

显然 , 基于 混合 高 斯 分 布 的 聚 类 算法 可 以 进行 简化 。 比 如 可 以 假设 每 个 类 服 
从 的 高 斯 分 布 的 方差 是 各 向 同性 的 , 甚至 假设 所 有 类 服从 的 高 斯 分 布 的 方差 都 相 
同 。 除 此 之 外 , 还 有 一 些 算法 对 基于 混合 高 斯 分 布 的 聚 类 算法 进行 了 改进 ， 这 里 
BEG, 如 果 有 兴趣 可 以 阅读 文献 [17] 进一步 研究 。 





e 基于 混合 von Mises-Fisher 分 布 的 单位 超 球面 上 的 聚 类 算法 


在 大 规模 的 数据 挖掘 应 用 中 , 有 时 会 涉及 具有 方向 性 的 高 维 数据 ,如 医院 急 
诊 每 天 病人 到 达 时 间 与 医生 的 接 诊 时 刻 记 录 。 通常 , 这 类 的 数据 都 是 通过 欧 氏 范 
数 归 一 化 的 向 量 , 长 度 相 等 ,是 分 布 于 单位 球体 表面 的 数据 。 对 于 该 类 型 的 数据 
而 言 , 普通 的 聚 类 模型 , 例如 混合 高 斯 模型 、 多 项 式 分 布 等 均 不 能 很 好 反映 数据 
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的 聚 类 本 质 。 因 为 这 些 聚 类 模型 是 在 欧 氏 空间 中 对 原来 的 样本 进行 聚 类 ， 而 对 于 
这 种 单位 球体 上 的 数据 ,向 量 大 小 不 是 聚 类 的 主要 参照 , 聚 类 是 基于 这 些 向 量 的 
方向 进行 的 。 因此 , 传统 的 欧 氏 空间 中 的 类 表示 和 类 相似 性 映射 不 适用 这 种 类 型 
的 数据 。 于 是 , 另 一 种 基于 余弦 相似 度 的 聚 类 模型 (基于 vMF 分 布 的 聚 类 算法 ) 
得 到 了 广泛 的 应 用 名。 

在 基于 vMF 分 布 的 聚 类 算法 中 , 方向 性 数据 使 用 的 相似 度 是 通过 余弦 相似 
度 模 型 进行 计算 的 。 余弦 相似 度 即 两 个 向 量 之 间 的 相似 度 是 通过 这 两 个 向 量 之 间 
的 夹 角 衡量 的 ， 由 于 便于 解释 并 且 计 算 方 便 , 因此 在 文本 分 类 和 信息 检索 等 方面 
得 到 了 广泛 的 应 用 。 当 两 个 向 量 之 间 的 夹 角 越 小 , 说 明 这 两 个 向 量 越 相似 , 反之 
亦 然 。 余弦 相似 度 的 数学 表达 式 为 : 


Ty = lzll llyll cos(8(r. y)) = cos(&(r. y) (7.27) 


其 中 zx RI y 分 别 为 长 度 为 1 的 列 向 量 , 9 是 两 个 向 量 间 的 夹 角 。 例 如 球面 天 均值 
算法 就 是 在 原 有 的 K 均值 算法 的 基础 上 , 将 欧 氏 距离 更 改 为 余弦 相似 度 , 并 且 在 
文本 分 类 等 方面 取得 了 很 好 的 效果 。 

在 定向 统计 中 , von Mises-Fisher 分 布 是 在 R4 中 的 d 一 1 维 球面 S47? 上 的 概 
率 分 布 。 对 于 d 维 随机 单位 向 量 z (这 里 ，z e RA, ||| = 1D)， 当 其 概率 密度 函数 为 





kd/2-1 


= OT) (7.28) 


(ælu, r) = ca(k)e ®, ca 


时 ， 称 该 向 量 服从 von Mises-Fisher 分 布 。 式 中 上 > 0, pu = 1, Ia RA d 
2x 

He E TL Ac Ls) = 3| eos dels hao. TL Ac HO SUI ATH 
0 

程 的 解 ,在 物理 和 工程 中 贝 塞 尔 函 数 是 最 常用 的 函数 之 一 。 例 如 , ed = 3 

时 ,ca(k) = È 。h 是 平均 向 量 (类似 于 高 斯 分 布 中 的 均 


4nsinh& — 2m(e* — e-^) 
值 ), 而 «是 聚集 参数 (类似 于 高 斯 分 布 中 的 方差 , 实际 上 1/ 是 9? 的 模拟 量 )， 
聚集 参数 表示 服从 分 布 的 单位 向 量 聚 集 在 平均 向 量 几 周围 的 程度 , « 的 值 越 大 表 
明 在 平均 向 量 / 周 围 有 越 强 的 聚集 。 当 上 一 0 时 v ME 分 布 将 退化 为 球面 上 的 均 
勾 分 布 , 当 上 一 oo 时 vMF 表示 聚集 在 人 上 的 一 个 点 。 

在 实际 应 用 中 , 不 可 能 用 一 个 单一 的 vMF 分 布 去 对 数据 进行 建 模 ,因为 单 
一 的 分 布 不 能 反映 出 数据 中 存在 的 不 同 模式 。 因此, 类 似 于 混合 高 斯 分 布 , 混合 
vMF 分 布 也 得 到 了 广泛 的 应 用 。 

混合 vMF 分 布 是 将 单个 的 概率 分 布 按照 线性 方式 组 合 起 来 , 如 图 7.1 所 示 ， 
混合 vMF 分 布 假设 数据 是 从 若干 个 分 布 中 抽样 出 来 的 。 当 分 布 的 个 数 增 大 时 , 通 
过 混合 vMF 分 布 任意 地 逼近 任何 连续 的 概率 密度 函数 。 假 设 混合 VM 分 布 由 CC 
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图 7.1 vMF 分 布 ( 见 彩 插 ) 


个 单 vMF SAAR, fi(]0;) 是 一 个 单独 的 具有 参数 8 = (ji ri) 的 分 布 。 混 合 
vMF 分 布 的 概率 密度 方程 写成 如 下 的 形式 : 


g 
f(z|©) = >》 ai fill) (7.29) 
i=1 


这 里 , O = (o, er ,Qc,01,: * EOLO? 从 上 面 的 式 子 可 以 看 出 ， 当 要 


从 这 个 混合 模型 中 进行 数据 采样 的 时 候 ， 首先 要 根据 概率 a, 选取 第 i 个 vMF 密 
度 函数 ， 然 后 再 从 密度 函数 万 (z|%) 中 采样 一 个 点 。 因此 , 这 也 是 一 个 标准 的 密度 
估计 问题 。 

假设 每 个 类 都 服从 VME 分布 , 则 可 令 0; = (ui, i)» 这 里 ,jui, Ai 表示 第 i 类 
vMF 分 布 的 均值 和 聚集 参数 。 特 别 地 ， 因 为 数据 来 自 于 同一 密度 (7.29)， 因 此 可 
VUE EQ X = {11,12 ,ZN} 是 来 自分 布 (7.29), 计算 参数 X= O = {a, 6} 
的 密度 估计 问题 ， 其 中 a= (04,09, :-- ,ac)， 0 一 (01.09. --- 06)s 即将 该 问题 
看 作 单 类 问题 中 的 密度 估计 问题 。 此 时 ,，X — Y, 假设 密度 估计 的 类 认 知 表示 
fiie Y = Ô, 此 时 , Simy (zp, Ô) = P(zkl6),， 其 中 工 = (Ys Yo, Yo) Ô = 


x " PNEU " [5j 
{4,0}, à = (â1,â2,: +- , ác), O = (01,02, Ac)» X aj = Là; > 0. 此 时 , 对 
j= 


于 一 个 固定 的 类 Y; KVL, Y; = {â ĝi} Sim(y Yi) = Sim(e, Yi) = pler, ĝi) = 
Gip(zk|O: Ma 


E Gip (eld) 
zc 


p(Ó)p(esló;); va. = 
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在 以 上 的 假设 下 , 如 果 类 表示 唯一 性 公理 成 立 , HEY — X, 则 最 好 的 类 认 知 
表示 应 该 满足 类 紧 致 准则 。 考虑 到 类 紧 致 准则 希望 类 内 相似 度 最 大 ,由 此 得 到 目 
标 函 数 (7.30): 


N N 
max II Simy (£p, Ô) = max Il p(xx|®) (7.30) 
9 ki 9 ki 


为 了 简化 计算 , 对 公式 (7.30) 两 边 取 负 自然 对 数 , 求 最 大 变 为 求 最 小 , 得 到 
目标 函数 (7.31)。 
N N 
mins * — In(Simy (rz, ©)) = min ， — In(p(zi.|Ó)) 
9 a 9 az (7.31) 


N Cc 
=min ^ in (3 apt 的 ) 
ud! i=1 


此 时 拉 格 朗 日 乘 子 法 要 求 最 小 化 目标 函数 
N c c c 
min L = min b» -ià (Maas) 十 (oa = 1) +》 AGUA - 1) 
| [s =] i=1 
(7.32) 
如 果 假 设 6 固定 , 求 最 小 化 目标 函数 (7.32) 的 参数 â, 最 小 化 目标 函数 (7.32) 
的 必要 条 件 是 目标 函数 (7.32) 的 导数 为 零 , 由 此 得 到 公式 (7.33): 
N “16. 
ot y= (lb) | ang (7.33) 


= b» ásp(zx|6;) 
i=1 








C 
根据 公式 (7.33) 和 约束 YO âj = 1,4; 2 0. 可 以 知道 入 = N. 
j=l 





HF vp = Plb), RAR (7.33) 可 以 得 到 公式 (7.34): 


X án) 


1 N 
&=—) x (7.34) 
N L E 
类 似 地 , 将 参数 & 固定 , 可 以 求 最 小 化 目标 函数 (7.32) 的 参数 6。 说 得 更 清楚 
gd/2-1 





T EER pA) = flein $o = Ge Gm esr T 
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即 对 Ai 和 Re 求 偏 导 使 其 为 零 。 可 得 





























ƏL dip(zkl6i)(Rizk) 28. =0 (7.35) 
Ii a i iHi = . 
ct x. áip(zi|0;) 
ici 
a (s 
aL N (a) als ma Tax) dap (welds ) " (7.36) 
oR, ; 
E d m ásp(y|0;) 
因此 , 可 知 : 
N 
a =k vans t 28i; — 0 (7.37) 
* k=1 
OL a alki) -r 
OR 2 om (a) SE za) zi: dus 
N 
23 un (7.39) 
ii 
fe e 7.40 
"= Trd i 
laj(i) _ ril (7.41) 
Taj2-1(i) Y 
Uik 
k=l 
经 过 计算 , 方程 (7.41) 中 未 知 数 Ri 的 近似 解 为 &; Ms B Abs Iul s 


到 此 为 止 , 混合 v ME 聚 类 算法 各 个 参数 的 推算 公式 推导 完毕 。 


下 面 , 我 们 给 出 混合 vMF 聚 类 算法 的 迭代 过 程 。 

算法 7.5 混合 vME 聚 类 算法 

输入 : 单位 球体 SO) 上 的 数据 集合 X: 

输出 : V = [va], Y =ô. 

(1) 初始 化 : 对 所 有 的 i = 1,2,---,C, Witte 69 = (a, Al, KO, a, AM, RO... 
a(0) 4(0 (0 
Ge ,Ac Re) 

(2) 更 新 类 的 外 部 表示 : 当 已 知 时 ,更 新 每 个 样本 的 隶属 度 


AG) (a ) TR 


fill) = cala e (7.42) 
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VO __G fal) (7.43) 
ik — UK G 
a? fu (09) 
279 
(3) 更 新 类 的 认 知 表示 : 当 每 个 样本 的 隶属 度 已 知 时 , EO 
1x N 
ape TN x vto. n= » rev) (7.44) 
k=1 k=1 
Ti E TL. mid- r? 
nguy A = pap A = P 
重复 上 述 (2)、(3) 两 步 直 至 收敛 。 口 


7.3.2 ”基于 无 参数 密度 估计 的 聚 类 算法 


7.3.1 Tip, 我 们 介绍 了 基于 参数 密度 估计 的 聚 类 算法 。 这 些 算法 的 主要 思想 
是 假设 样本 来 自 于 儿 个 概率 分 布 , 且 假 设 相似 的 样本 来 自 同一 个 概率 分 布 , 不 相 
似 的 样本 来 自 不 同 的 概率 分 布 。 而 描述 这 些 概率 分 布 的 参数 ,是 通过 样本 估计 出 
来 的 。 但 实际 应 用 中 ,可 能 并 不 一 定 知道 类 由 特定 的 概率 分 布 族 表示 这 一 个 先 验 
假设 。 很 多 时 候 , 可 能 只 知道 数据 服从 概率 分 布 , 但 对 于 其 具体 特征 一 无 所 知 。 
此 ,只 能 根据 数据 来 拟 合 数 据 自 身 的 概率 分 布 ,此 时 , 基于 无 参数 密度 估计 是 这 
类 问题 的 基本 方法 。 对 于 无 参数 密度 估计 方法 来 说 , 如 果 其 密度 是 单 峰 的 ， 显然 
就 是 通常 的 密度 估计 问题 ; 如 果 是 多 峰 的 ， 显 然 可 以 根据 峰值 进行 聚 类 。 这 时 候 
对 于 类 表示 的 假设 是 类 的 表示 和 样本 的 表示 处 于 同一 个 特征 空间 ,并且 密度 估计 
的 峰值 对 应 相应 的 一 个 类 表示 。 因 此 , 给 出 一 种 找 出 无 参数 密度 估计 的 多 个 峰值 
方法 , 理论 上 就 可 以 得 到 一 种 聚 类 算法 。 

下 面 ， 我 们 以 山峰 算法 和 均值 漂移 聚 类 算法 为 例 , 详 述 基 于 无 参数 密度 估计 
的 聚 类 算法 。 





。 山峰 聚 类 算法 


传统 的 基于 原型 的 聚 类 算法 存在 如 下 问题 : 需要 事先 确定 类 表示 的 特定 表 
qme 并 给 定 相应 的 参数 ,如 初始 聚 类 中 心 、 和 迭代 次 数 、 收 敛 误 差 等 。 在 没有 任何 先 
验 知识 的 情况 下 ,主观 地 给 定 这 些 参数 是 十 分 困难 的 。 特别 是 初始 聚 类 中 心 的 选 
取 , 对 于 基于 原型 的 聚 类 算法 的 性 能 影响 巨大 。 如 果 初 始 聚 类 中 心 选取 不 当 , 基 
于 原型 的 聚 类 算法 给 出 的 聚 类 结果 可 能 不 甫 使 用 。 

为 了 解决 这 一 问题 , Yager 和 Filev!?! 在 1994 年 提出 了 一 种 聚 类 方法 , 可 以 
有 效 地 估计 初始 聚 类 中 心 。 其 基本 思想 是 通过 密度 函数 的 峰值 对 应 的 样本 点 作为 
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聚 类 中 心 , 这 样 的 聚 类 算法 称 为 山峰 聚 类 算法 。 由 于 越 紧 致 的 类 其 类 中 心 密度 越 
K, 山峰 聚 类 算法 中 的 聚 类 中 心 遵循 类 紧 致 性 准则 。 显 然 ,， 最 大 峰值 容易 计算 , 其 
他 的 次 峰值 难以 计算 。 原 因 是 最 大 峰值 附近 的 点 密度 也 很 大 。 为 了 正确 计算 密度 
函数 的 其 他 未 知 峰值 , 文献 中 有 两 种 方法 , 一 种 是 Yager 和 Filev 提出 的 削 平 已 知 
山峰 的 办 法 , 简称 前 峰 聚 类 算法 ; 另 一 种 是 2014 年 Alex Rodriguez fil Alessandro 
Laio 提出 的 从 峰 顶 将 整个 山峰 描绘 出 来 的 方法 , 简称 描 峰 聚 类 算法 。 

下 面 , 先 讨论 削 峰 聚 类 算法 。 其 具体 的 做 法 是 : 考虑 到 类 紧 致 性 准则 ， 先 计 
算出 当前 密度 函数 的 最 大 峰值 及 其 对 应 的 样本 点 , 得 到 当前 最 具有 类 紧 致 性 的 聚 
类 中 心 。 然 后 考虑 类 分 离 性 准则 , 通过 削 去 其 对 应 样本 点 的 最 大 峰值 来 修改 当前 
密度 函数 , 得 到 新 的 密度 函数 , 这样 得 到 的 密度 函数 的 最 大 峰值 对 应 点 与 以 前 得 
到 的 聚 类 中 心 保 持 分 离 性 ,重复 上 述 步 又 , 得 到 足够 多 的 聚 类 中 心 , 而 在 参数 合 
适 的 时 候 这 些 聚 类 中 心 的 分 离 性 也 足够 好 。 一 个 典型 的 山峰 算法 的 示意 图 可 见 
图 7.2 和 图 7.3。 图 7.2 是 数据 的 空间 分 布 , 图 7.3 显示 了 每 点 的 密度 值 。 

















EE TE Se 
图 7.2 数据 分 布 ( 见 彩 插 ) 


削 峰 聚 类 算法 主要 步骤 如 下 : 

第 一 步 : 构造 山峰 函数 (密度 函数 )。 该 步 是 山峰 聚 类 算法 的 核心 , 通过 构造 
合理 的 山峰 函数 , 可 以 将 数据 空间 中 密度 较 大 的 点 凸 出 。 在 文献 [12] 中 , 使 用 了 
高 斯 密度 函数 作为 山峰 函数 。 点 6 V 处 山峰 函数 的 高 度 为 : 


N 


p (x) Ye llz js ) (7.46) 


k=1 








其 中 , zx ERREX = (n2, ,zw} 中 的 第 大 个 样本 ，B 是 一 个 固定 常数 。 
第 二 步 : 式 (7.46) 表明 数据 集中 的 峰值 是 : max, p 中 (zk), 因此， 该 峰值 对 应 
的 聚 类 中 心 是 = gae, sea。 所 有 样本 点 对 点 处 山峰 高 度 均 有 贡献 。 
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0 7-2 


图 7.3 山峰 函数 ( 见 彩 插 ) 


第 三 步 : 消去 上 一 次 山峰 函数 的 峰值 来 更 新 当前 密度 估计 函数 以 及 当前 的 聚 
类 中 心 
Q a) vas IY = el? T 
f^t) eo om (BEAT) tran 
显然 , pO (X3) = max, pP (x). Alte, 可 以 知道 , pO (a) 不 仅 削 去 了 pO (ar) 
最 大 的 峰值 , 而 且 对 于 靠近 Y, 的 密度 估计 pO 值 也 压低 至 几乎 接近 于 零 。 此 时 求 
maxk pz), SR Ya = ang many 离 瑟 有 一 定 距离 。 重复 本 步 直至 类 中 心 
个 数 已 经 满足 要 求 或 者 密度 函数 的 峰值 已 经 足够 低 为 止 。 
下 面 , 我 们 给 出 前 峰 聚 类 算法 的 迭代 过 程 。 
算法 7.6 ”前 峰 聚 类 算法 


MIA: 数据 集合 X = {21,22,--- ,ZN}; 
输出 : Y = {¥1,Yo,--- Yo)- 


TA x = I? 
(1) Hel: 2, Ya = tarama toe JP f (2) = X exp ( - EFL), 
重复 迭代 
(2) 削 平 第 上 个 山峰 , 更 新 密度 估计 : 





(t+1) (t) (t) x | 到 一 zrl? 
0) (a) = p(x) - p Ya) 9 exp | -= (7.48) 
k=1 


(3) 求 出 第 t 十 1 个 山峰 : 


Yeri = Tag max, p (sp) (7.49) 
(t+1) (y, 
重复 上 述 (2)、(3) 两 步 , 直至 类 中 心 个 数 为 C 或 者 Qt) 口 


Se ee "Ys 
p)(¥1) ? 
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显然 ， 这 个 算法 中 , 如 何 选择 合适 的 8, 对 于 算法 效果 有 很 大 影响 。 如 图 7.2 
Bras, 不 同 大 小 的 8 影响 着 p(x) 的 大 小 。 显然 , 6 与 聚 类 的 精度 以 及 聚 类 的 速度 
有 密切 的 关系 。 6 越 大 ,候选 的 聚 类 中 心 越 少 ; 8 越 小 , 候选 的 聚 类 中 心 越 多 , 但 
所 需 的 计算 量 也 相应 增 大 。 

削 峰 聚 类 算法 是 通过 顺序 地 削 去 山峰 来 实现 的 , 严格 意义 上 不 是 一 个 完整 的 
聚 类 算法 , 其 主要 用 途 是 找 出 聚 类 中 心 , 并 不 是 将 每 一 个 样本 聚 类 。 同 时, 原始 的 
山峰 聚 类 算法 虽然 想法 直观 , 但 是 由 于 数据 的 维 数 通常 高 于 三 维 , 因此 算法 的 聚 
类 性 能 很 难得 到 直观 展现 。 

Alex Rodriguez 和 Alessandro Laio 于 2014 年 提出 了 一 种 新 的 山峰 聚 类 法 ， 
该 算法 的 核心 思想 依然 是 找到 最 高 密度 的 聚 类 中 心 , 但 并 不 是 通过 削 平 最 高 密度 
点 代表 的 山峰 来 找 下 一 个 最 高 密度 点 以 满足 类 分 离 性 准则 ， 而 是 通过 直接 计算 每 
个 样本 点 的 紧 致 度 和 分 离 度 来 考察 其 是 否 适 合作 为 聚 类 中 心 。 其 考察 方法 是 一 种 
可 视 化 方法 ,， 即 用 类 紧 致 度 和 类 分 离 度 这 2 维特 征 对 样本 点 进行 二 次 刻画 , 利用 

类 紧 致 性 准则 和 类 分 离 性 准则 找 出 其 中 的 聚 类 中 心 来 进行 聚 类 的 。 由 于 该 算法 
将 样本 点 归 类 的 过 程 类 似 于 绘画 中 的 描绘 山峰 法 , 在 本 书 中 将 其 简称 描 峰 聚 类 算 
法 。 由 于 极 大 的 视觉 直观 性 , 该 算法 自发 表 以 来 受到 了 广泛 的 关注 09。 客观 地 说 ， 
描 峰 聚 类 算法 是 现今 文献 中 第 一 个 真正 走向 实用 的 可 视 化 划分 型 聚 类 算法 。 下 
面 , 将 详细 讨论 该 算法 。 

根据 类 表示 存在 公理 ， 一 个 聚 类 算法 首先 需要 确定 类 的 认 知 表示 。 山 峰 聚 类 
算法 的 类 认 知 表示 由 密度 函数 的 峰值 对 应 样本 点 来 表示 , 已 经 考虑 了 类 紧 致 性 准 
则 。 而 根据 类 分 离 性 准则 , 不 同类 的 表示 应 该 差异 度 越 大 越 好 。 由 此 可 知 ,选择 
类 表示 的 密度 函数 峰值 对 应 点 的 彼此 距离 也 应 该 越 大 越 好 。 由 于 山峰 聚 类 算法 的 
类 认 知 表示 是 由 样本 点 来 代表 , 要 选择 出 合适 的 样本 点 , 一 个 更 直接 的 方法 是 看 
该 样本 点 是 否 满足 如 上 分 析 的 两 个 特征 。 因此 , 对 每 个 样本 点 需要 定义 两 个 特征 : 
类 紧 臻 度 和 类 分 离 度 。 这 里 , 类 紧 致 度 用 局 部 密度 值 来 表示 ， 类 分 离 度 用 最 近 峰 
值 点 间隔 表示 。 显然, 这 两 个 值 大 的 点 才 有 可 能 是 对 应 的 类 表示 。 下 面 , 对 每 个 样 
本 点 分 别 定义 。 

假设 有 样本 集 X = {zi,z2,… ,ZN}， 对 于 每 一 个 数据 点 zk， 要 计算 两 个 量 
点 的 局 部 密度 值 pi; 和 该 点 到 具有 更 高 局 部 密度 的 点 的 距离 ,而 这 两 个 值 都 取 
决 于 样本 点 zx 和 zi 间 的 距离 wz = zx 一 zi。 数据 点 zi 的 局 部 密度 pr 的 定义 
如 下 : 























pk = prx) De ( p ) (7.50) 


其 中 , WR o 值 越 大 , px 越 大 ; 反之 , o WRN, pr 越 小 。px 就 是 点 we 的 密度 估 
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计 值 。px 越 大 表示 点 zx 局 部 密度 越 大 , 越 有 可 能 成 为 聚 类 中 心 。 显然 , 算法 仅 与 
pr 的 相对 大 小 有 关 , 也 就 是 说 , 该 算法 对 于 参数 o 的 选择 鲁 棒 。 
样本 点 zx 的 y. 值 表示 最 近 峰 值 点 间隔 ,定义 为 该 点 到 具有 更 高 局 部 密度 的 
点 的 最 近 距 离 : 
Ôk = min dy (7.51) 
pi pk 
而 对 于 密度 最 大 的 点 so RIDEN pk = max; dii» J, 表示 密度 大 于 点 zx 的 点 
中 ,到 点 zx 的 最 小 距离 。 该 值 越 大 , 表示 点 zx 距离 高 密度 点 的 距离 越 远 ， 则 点 
Zk 越 有 可 能 成 为 聚 类 中 心 。 
定义 了 点 的 局 部 密度 pk 和 最 近 峰 值 点 间隔 6 之 后 , 理论 上 每 个 样本 点 就 可 
以 在 新 的 二 维 坐标 下 表示 ,这 样 可 以 得 到 数据 集 X 的 聚 类 决策 图 。 类 紧 致 性 准则 
要 求 ， 聚 类 中 心 的 密度 越 大 越 好 。 类 分 类 性 准则 要 求 ， 聚 类 中 心 的 分 离 度 越 大 越 
到 。 因 此 ， 综 合 以 上 两 条 准则 , 根据 聚 类 决策 图 , 可 以 选 定 聚 类 中 心 。 选 定 聚 类 中 
心 以 后 , 其 他 点 的 归属 是 先 按照 密度 由 高 到 低 排列 , 密度 最 高 的 未 标定 点 与 最 近 
的 已 标定 点 标定 为 同类 , 这 样 一 次 次 归 类 下 去 , 就 像 描绘 山峰 一 样 , 因此 简称 描 峰 
法 。 今后 , 我 们 简称 该 算法 为 描 峰 聚 类 算法 。 显 然 , Alex Rodriguez 和 Alessandro 
Laio 提出 的 这 个 算法 , 最 适合 完成 的 任务 是 划分 型 聚 类 的 可 视 化 。 
下 面 给 出 描 峰 聚 类 算法 。 
算法 7.7 描 峰 聚 类 算法 
输入 : 数据 集合 X = {21,22, ,ZN}, 参数 o。 
输出 : PERAK Y = {Y1, Yao, ,Yc}, Ya, Y2, Yeo 
(1) 对 每 个 样本 点 zk， 计 算 其 pk 和 64 值 。 
(2) 画 出 聚 类 决策 图 , 找 出 pk 和 On 值 比较 大 的 点 选 作 聚 类 中 心 。 
(3) 描 峰 : 决定 每 个 样本 的 归属 。 归 类 准则 : 密度 最 大 的 未 标定 点 与 最 近 的 已 标定 点 标定 为 
类 。 这 样 一 次 次 归 类 下 去 , 直至 标定 完毕 。 口 








可 





ifi, 我 们 用 一 个 实例 , 详 述 描 峰 聚 类 算法 过 程 。 

图 7.4 中 显示 了 二 维 空间 中 28 个 数据 点 组 成 的 数据 集 。 显然 , 在 该 数据 集中 ， 
第 1 个 样本 点 和 第 10 个 样本 点 处 于 样本 密度 最 大 的 区 域 , 是 两 个 类 的 聚 类 中 心 。 
图 7.5 F, RAA p. 纵 轴 为 5, 我 们 称 之 为 决策 图 。 在 图 中 , 第 10 个 样本 点 和 第 
9 个 样本 点 有 近似 于 相等 的 p 值 而 6 值 却 有 很 大 的 差距 。 因此 , 通过 聚 类 决策 图 ， 
可 以 一 次 找 出 多 个 聚 类 中 心 , 如 图 7.5 中 的 第 10、 第 1 个 样本 点 。 在 找到 聚 类 中 
心 后 ,再 根据 样本 点 与 聚 类 中 心 的 距离 对 样本 进行 聚 类 划分 。 下 面 ， 我们 再 举 一 
个 例子 , 说 明 该 算法 的 有 效 性 及 鲁 棒 性 。 


102 机 器 学 习 : 从 公理 到 算法 





8 
@ 

9 og 8 9 
009 

ud du © Q 

@ 
@ 
@ 











图 7.4 数据 分 布 ( 见 彩 插 ) 








图 7.5 聚 类 决策 图 ( 见 彩 插 ) 


图 7.6(a) 中 给 出 了 生成 人 工 数据 集 的 概率 分 布 。 图 7.6(b) (c) 分 别 为 根据 
(a) 中 的 概率 分 布 生成 的 4000, 1000 个 样本 点 。 图 7.6(d)、(e) 分 别 为 这 两 个 数据 
集 对 应 的 聚 类 决策 图 。 显然 , 利用 描 峰 聚 类 算法 可 以 找 出 聚 类 中 心 , 并 且 其 聚 类 
划分 结果 符合 实际 的 数据 类 别 。 图 7.6(d)、(e) 中 用 不 同 的 颜色 标注 了 聚 类 中 心 ， 
且 在 图 7.6(b)、(c) 中 用 对 应 的 颜色 标记 了 属于 该 类 的 样本 。 

根据 图 7.6(a) 中 的 概率 分 布 生成 包含 10000 个 数据 点 的 数据 集 ， 并且 用 描 峰 
聚 类 算法 对 数据 集 进行 聚 类 。 而 后 , 保留 其 中 一 部 分 数据 点 ,再 进行 聚 类 , 一 直 
到 数据 集中 包含 1000 个 数据 点 。 从 图 7.6(f) 可 以 看 出 , 在 数据 集 大 小 不 同 的 情况 
下 ， 该 聚 类 算法 错误 划分 样本 的 比例 总 小 于 1% 
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(a) (e) (6) 
图 7.6 人 工 数据 集 上 的 聚 类 结果 ( 见 彩 插 ) 


描 峰 聚 类 算法 与 削 峰 聚 类 算法 一 样 ， 其 基本 思想 都 是 通过 寻找 样本 密度 较 高 
的 点 作为 聚 类 中 心 , 再 通过 计算 样本 与 聚 类 中 心间 的 距离 , 实现 样本 的 聚 类 。 然 
而 描 峰 聚 类 算法 较 前 峰 聚 类 算法 而 言 , 前 者 可 以 一 次 性 的 将 所 有 的 聚 类 中 心 找 
出 , 而 后 者 则 需要 通过 顺序 削减 聚 类 中 心 的 影响 才能 实现 聚 类 中 心 的 判别 。 因此 ， 
描 峰 聚 类 算法 是 一 个 完整 的 聚 类 算法 ， 其 优点 在 于 可 视 性 强 。 山 峰 聚 类 算法 的 另 
一 个 缺点 是 计算 复杂 性 高 。 


e 均值 漂移 (mean shift) 算法 


在 山峰 聚 类 算法 里 ， 直 接 用 密度 估计 函数 的 峰值 对 应 的 样本 点 来 表征 类 认 
知 表 示 。 但 是 ， 密 度 函 数 的 极 值 并 不 一 定 对 应 具体 的 样本 点 。 因 此 直接 求 密度 
函数 的 极 大 值 ， 极 大 值 点 虽然 可 能 不 是 样本 点 ,但 应 该 也 是 好 的 聚 类 中 心 。 文 
献 中 ， 按 照 这 种 思想 发 展 起 来 的 聚 类 算法 称 为 均值 漂移 算法 ， 该 算法 最 早 见 
于 由 Fukunaga 等 人 于 1975 年 发 表 的 一 篇 关于 概率 密度 梯度 函数 的 估计 的 文 
章 L4, Yizong Cheng”! 对 该 算法 做 了 重要 推广 。 下 面 , 将 详细 讨论 均值 漂移 
算法 。 

如 前 所 述 ， 已 知 d 维 空间 中 的 Nv 个 数据 点 zp,k = 1,2,… NS. HEX 
K(x) 和 窗口 半径 得 到 的 多 元 核 密度 估计 函数 : 
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fe T-T 
ta)= 4 3 K(— (7.52) 
i=1 
对 于 径 向 对 称 核 函数 ,， 核 函数 K(x) 满足 : 
K(x) = exar lol?) (7.53) 


这 里 , cia HER K(X) 的 积分 为 1 的 归 一 化 常量 。 因此 ,多 元 核 密度 估计 
函数 为 : 




















PPRT ad z — xy ||? 
Sas) = a 2 人 | h | ) (on 
要 求 多 元 核 密度 估计 函数 f (c). 的 极 大 值 , 对 其 求 导 并 令 之 为 零 即 可 。 
V fau (n) d 3 (« ay) (|* Y |’) 0 (7.55) 
k=1 
由 此 得 方程 (7.56): 
V fix (2) = E E (zk x (| |’) (7.56) 





N zz? 
x e (E 
t 2c. (pp 22 h E. 
vs | | aen 
h 








第 二 项 即 为 均值 漂移 向 量 : 





B cd 
(fln — Tk 
YF) 
m(x) = “= x (7.57) 
) 
显然 , 是 多 元 核 密度 估计 函数 f (n) 的 一 个 极 大 值 点 的 必要 条 件 是 m(z) = 0。 
ma (x) = 0 除 特殊 情况 外 , 一 般 没 有 z 的 闭 式 解 , 只 能 通过 和 迭代 过 程 z(t+? = 
aO + ma (a (9) 求解 。 而 且 多 元 核 密度 估计 函数 f(x) 通常 不 只 具有 一 个 极 大 值 。 
在 数据 zk,k = 1,2,---,N HERES EDU FS fu (c) 具有 多 个 对 应 类 中 心 的 极 大 
值 点 。 
下 面 给 出 均值 漂移 算法 。 
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算法 7.8 均值 漂移 算法 
输入 : 数据 集合 和 = (mico, ,ZN}，=。 
输出 : 数据 集合 YY = (nya, ,yn}; 


fork —1:N 
2 — v, 
迭代: 


(1) zt+D = 2 十 mn(zG)。 
(2) 如 果 lx) — a9 || < e, 则 终止 迭代 , $ ye = 20777; 否则 , t=t+1, 重复 第 (1) 步 。 
end [] 
其 归 类 规则 是 : 如 果 z 和 zi 作为 迭代 方程 zt+D = aO 4 my (a9) 的 不 
同 初始 点 ,收敛 到 多 元 核 密度 估计 函数 f (n) 同一 个 极 大 值 点 , 则 zx 和 ay 属 
于 同一 类 。 很 多 时 候 ， 由 于 多 元 核 密度 估计 函数 的 不 够 理想 , 均值 漂移 算法 输 
出 的 数据 集合 = (yis yas suu) 的 不 同 点 数 远 多 于 要 求 的 聚 类 数 ， 几 乎 不 
能 直接 使 用 以 上 理论 规则 进行 聚 类 。 实 际 应 用 中 , 一 般 是 采取 其 他 聚 类 算法 将 
Y = (yy yo, ,YN} 进行 重 聚 类 。 
下 面 , 采用 如 图 7.7(a) 所 示 的 一 个 数据 集 来 说 明 均 值 漂移 算法 。 首 先 在 d HE 
空间 中 任 选 一 个 样本 点 , 然后 以 这 个 点 为 圆心 , h 为 半径 做 一 个 高 维 球 , 圆圈 内 是 








图 7.7 均值 漂移 示意 图 ( 见 彩 插 ) 
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YEA Sp 区 域内 的 样本 点 zi € Sn， 中心 的 蓝 色 点 就 是 均值 漂移 的 基准 点 z。 落 在 
这 个 球 内 的 所 有 样本 点 到 圆心 都 会 产生 一 个 偏 移 向 量 , 图 中 用 箭头 表示 样本 点 相 
对 于 基准 点 z 的 偏 移 向 量 , 很 明显 , 我 们 可 以 看 出 , 平均 的 偏 移 向 量 ma (c) 会 指 
向 样本 分 布 最 多 的 区 域 , 也 就 是 概率 密度 函数 的 梯度 方向 。 再 以 均值 漂移 向 量 的 
终点 为 圆心 , 做 一 个 高 维 的 球 。 重复 以 上 步骤 , 就 可 得 到 下 一 个 均值 漂移 向 量 , 步 
又 如 图 7.7(b)、(c) 所 示 。 如 此 重复 下 去 , 均值 漂移 算法 可 以 收敛 到 样本 点 概率 密 
度 最 大 的 地 方 , 也 就 是 样本 最 稠密 的 地 方 , 如 图 7.7(d) 所 示 。 这 就 是 均值 漂移 算 
法 的 核心 思想 。 

以 上 介绍 的 基于 无 参数 密度 估计 的 聚 类 算法 都 假设 类 认 知 表示 由 一 个 点 组 
成 , 显然 这 是 最 简单 的 基于 无 参数 密度 估计 的 聚 类 算法 。 在 基于 密度 估计 的 聚 
类 算法 中 ,也 可 以 假设 类 认 知 表示 不 是 由 一 个 点 组 成 , 而 是 由 多 个 点 组 成 。 这 方 
面 的 一 个 典型 例子 是 DBSCANH9]， 有 兴趣 的 读者 可 以 自行 研读 ,， 它 也 符合 归 类 


公理 。 

















延伸 阅读 


当 X = 了 时 ， 聚 类 算法 的 最 终 目 标 是 输出 聚 类 结果 (X,U, X, Sim). fidi 
的 不 同 表 示 形 式 可 将 聚 类 算法 分 类 ， 比 如 分 为 划分 聚 类 算法 和 层次 聚 类 算法 。 
需要 指出 的 是 ， 聚 类 算法 的 分 类 依据 多 种 多 样 。 如 根据 划分 矩阵 U 的 不 同 表示 ， 
可 以 将 聚 类 算法 分 为 硬 聚 类 算法 和 软 聚 类 算法 ; 根据 算法 的 实时 性 要 求 分 为 在 
线 (实时 ) 聚 类 算法 和 离线 聚 类 算法 ; 根据 聚 类 数据 存储 的 形式 可 以 将 聚 类 算法 
分 为 分 布 式 或 集中 式 聚 类 算法 ; 根据 是 否 可 将 聚 类 过 程 或 者 结果 可 视 化 可 将 聚 类 
算法 分 为 可 视 化 聚 类 算法 和 非 可 视 化 聚 类 算法 ; 等 等 。 如 何 合理 地 将 聚 类 算法 分 
类 本 身 也 是 一 个 有 趣 的 研究 课题 。 

聚 类 思想 在 历史 上 出 现 很 早 ， 有 关 文 献 可 以 追踪 到 公元 前 几 世 纪 ， 但 聚 类 
算法 的 历史 却 短 得 多 ， 见 诸 文献 最 早 也 不 过 是 20 世纪 50 年 代 。 最 早出 现 的 层 
次 聚 类 算法 是 单 连通 层次 聚 类 算法 ， 其 早期 法 语文 献 可 回溯 至 文献 20]， 其 早 
期 英语 文献 可 回溯 至 文献 2H 。 最 早出 现 的 划分 型 聚 类 算法 是 K-means RA 
法 ,该 算法 曾经 被 许多 人 反复 独立 发 现 , 如 K-means 算法 最 早 的 一 个 粗略 描述 可 
见 [22], K-means 的 第 一 个 理论 分 析 来 自 于 [23]。 早 期 的 聚 类 分 析 文 献 ， 可 以 参 
考 [24。 在 这 里 ,需要 指出 C-means 与 K-means 是 同一 个 算法 ,其 不 同 只 在 于 聚 
类 数 用 C 还 是 K 来 代表 。 

在 大 数据 时 代 , 标记 样本 相对 稀少 , 聚 类 算法 越 来 越 受 重视 。 受到 不 断 涌现 
的 各 种 新 应 用 驱动 , 新 型 聚 类 算法 不 断 出 现 , 如 子 空间 聚 类 、 异 质 聚 类 等 , 文献 中 
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已 经 积累 了 成 百 上 千 的 聚 类 算法 。 更 有 趣 的 是 ， 聚 类 算法 在 不 同 的 领域 有 不 同 的 
名 称 , 如 在 信号 编码 领域 , 矢量 量化 (vector quantization) 大 多 时 候 是 指 聚 类 分 
Br Ol; 在 图 像 分 析 领 域 ， 图 像 分 割 (image segmentation) 很 多 时 候 与 聚 类 分 析 同 
Xa 在 复杂 网 络 分 析 领 域 , 社区 发 现 (community detection) 与 聚 类 分 析 几 乎 是 
同 义 语 ; 在 搜索 引擎 领域 , 协同 过 滤 Collaborative filtering) 是 一 类 特殊 的 聚 类 
算法 ; 在 自然 语言 处 理 领 域 , 主题 发 现 (topic detection) 属于 聚 类 分 析 的 一 种 特 
殊 应 用 , 等 等 。 

因此 ， 如果 想 对 聚 类 算法 做 一 个 简单 而 全 面 的 综述 , 需要 横 跨 许多 领域 , 其 
工作 量 已 经 远 远 超过 一 本 普通 学 术 专 著 的 要 求 。 实际 上 ,本 书 只 是 选取 了 几 个 典 
型 常用 的 聚 类 算法 来 说 明 归 类 公理 在 聚 类 分 析 中 的 作用 , 并 不 是 对 聚 类 分 析 的 一 
个 全 面 论述 。 文献 中 关于 聚 类 算法 的 专著 已 经 有 一 些 ,比如 有 专门 研究 有 限 混 合 
模型 聚 类 算法 的 文献 [17]. 有 集合 许多 作者 对 于 各 种 聚 类 算法 进行 综述 的 聚 类 分 
析 算 法 专著 [18], 感 兴趣 的 读者 可 以 根据 自己 的 爱好 选读 。 





习 题 
1. WX = {2z1,22,… ,ZN} 是 来 自 某 混合 密度 的 N 个 数据 ， 且 服从 以 下 分 布 P(zk|6) = 
* mjP(rk|0;) s.t. * mj = l,m; > 0, 其 中 P(e) = (2n) ?9;?. 
ja j=l 








exp (- REP), s, (us ca。 试 求 此 假设 下 基于 混合 高 斯 分 布 的 到 
类 算法 。 

2. 设 X = {2z1,22,… ,ZN} 是 来 自 某 混合 密度 的 N 个 数据 ， 且 服从 以 下 分 布 P(zk|6) = 
Esredo) s.t. Es = lm > 0， 其 中 P(r0;) = (2n) 57. 








yE spat 
exp (一 于 一 的 (D), 9, = (5), sol I FET C6 OR A A HIE 
类 算法 。 
3. 设 X = {z1,z2,… o) 是 来 自 某 混合 密度 的 N 个 数据 ， 且 服从 以 下 分 布 Perlo) = 
E Pe) s.t. Vin; = C, X P P(zó) = (2n) "g^. 
j=l 








n BUE 
exp (一 SAT) eH), & = (x9), 0 = (uo). 试 求 此 假设 下 基于 混合 高 
斯 分 布 的 聚 类 算法 。 


4. BX = {fzaza ,ZN}, J = * > Wik||zk 一 Xi. FE Vk, zk € R, Vi, Xi € 
$—1 k—1 
R”, uir € [0,1], > uir = 1。 试 证 明 由 minu,x J 导出 的 C 均值 聚 类 算法 可 以 在 有 限 步 
í—1 
内 收敛 。 
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第 8 章 分 类 理论 


可 乎 可 ， 不 可 乎 不 可 。 
一 一 庄 周 《庄子 。 齐 物 论 》 


如 果 c> 1 并 且 已 知 (X, D), 则 对 应 的 归 类 学 习 问 题 就 是 分 类 问题 。 显然 , 分 
类 问题 不 是 单 类 而 是 多 类 问题 。 如 果 每 个 对 象 只 有 唯一 一 个 类 与 其 对 应 ， 则 为 标 
准 分 类 问题 。 对 于 标准 分 类 问题 ， 类 表示 存在 公理 和 归 类 公理 依然 成 立 , 但 类 表 
示 唯 一 公理 对 分 类 问题 来 说 一 般 不 成 立 。 原因 很 简单 。 如 果 类 表示 唯一 公理 成 立 ， 
那么 分 类 的 错误 率 将 会 是 零 。 在 实际 应 用 中 , 这 要 求 显然 过 苛 。 实际 上 , 分 类 方法 
如 果 能 够 达到 工程 要 求 的 分 类 错误 率 , 已 经 令 人 满意 。 分 类 错误 率 为 零 , 一 般 只 
能 作为 理论 上 的 追求 。 因 此， 类 表示 唯一 公理 成 立 是 分 类 问题 的 终极 要 求 , 一般 
把 类 表示 唯一 公理 看 作 是 分 类 问题 的 一 个 理想 约束 。 一 个 性 能 良好 的 分 类 算法 应 
该 使 该 理想 约束 尽量 成 立 , 即 类 表示 唯一 公理 尽 可 能 成 立 ， 或 者 说 其 成 立 的 近似 
程度 高 。 换 一 种 说 法 , 类 一 致 性 准则 在 分 类 算法 的 设计 中 至 关 重 要 。 





8.1 分 类 及 相关 定义 


根据 归 类 理论 , 在 分 类 问题 中 , 输入 表示 为 (X,U, X, Simx), 输出 表示 为 
(Y, V, Y,Simy). 其中, (X,U) 为 训练 集 , 不 仅 数 据 集 X 已 知 , 而 且 对 应 的 标定 U 
也 已 知 。 fH (X, Simx) 作为 期 望 的 分 类 器 ，(Y,V) 为 训练 结果 ，(Y, Simy ) 为 实 
际 学 到 的 分 类 器 , 都 是 待 学 习 的 。 

一 般 地 , 当 讨论 分 类 问题 时 , 通常 假设 U = [index 中 的 任 一 元 素 uir 不 是 0 
就 是 1， 即 每 个 元 素 要 么 绝对 属于 某 类 , 要 么 绝对 不 属于 某 类 。 如 果 U 正则 划分 ， 
也 就 是 U 中 的 每 一 列 中 只 有 一 个 元 素 的 值 为 1, 那么 就 是 标准 的 分 类 问题 。 如 果 
U EMAL, 即 UV 中 的 每 一 列 中 有 多 于 一 个 元 素 的 值 为 1, 那么 就 是 多 标记 分 
类 问题 。 对 于 多 标记 分 类 问题 , 样本 可 分 性 公理 可 以 泛 化 成 Vk3i(i € Tr) 通过 这 
种 推广 , 多 标记 分 类 问题 也 遵从 样本 可 分 性 公理 。 但 是 , 这 种 遵循 , 实际 上 是 实数 
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公理 的 再 版 。 本 书 主要 讨论 标准 分 类 问题 , 对 于 多 标记 分 类 问题 有 兴趣 的 读者 
可 以 阅读 文献 [1]. 并 自行 研究 。 

在 通过 训练 集 (X,U) 的 学 习 得 到 分 类 器 (Y,Simy ) 之 后 , 对 于 新 的 测试 样本 
vp. 可 以 通过 学 到 的 分 类 器 (六 ,Simy) 预测 zzr 所 属 的 类 别 。 

根据 以 上 的 分 析 , 可 以 给 出 有 关 分 类 决策 域 的 一 些 相 关 定 义 。 

决策 域 (decision region) EXA: Q = {zl3i(Y=i) 人 (y= 0(z))}。 

类 Y; 的 决策 域 定义 为 : Qi = (x|(y = i) ^ (y = 0(z))} 
因此 , UN; = Q。 

分 类 训练 输出 (Y, V, Y, Simy) 的 边界 、 训 练 决策 域 、 类 Y: 的 训练 决策 域 、 支 
持 向 量 及 间隔 可 分 别 定义 如 下 。 

边界 : 00 =Q — 05, 其 中 O 表示 Q 的 闭 包 , O° 表示 0 的 内 点 。 

训练 决策 域 : Oy simy) = {zx|3i3k((z € Qi) ^ (zy € Qj) ^ (Simy(6(z),Y;) > 
Simy (0(zx), Yi))) fo 

HY, 的 训练 决策 域 : Qy, = {zlak((z € UY) ^ (zy € Nu) ^ (Simy (0(x), Yi) > 
Simy (A(x), Y;)))]- 

支持 向 量 : WR zk € OQ sis), W zx 是 分 类 结果 (Y. V. Y, Simy) 的 支持 

间隔 : Margingy simy) = min;z; d(Qy,, Qy,). 其 中 d(Qy,, Qy,) 表示 Ox, F Oy, 
间 的 距离 。 

显然 ,决策 域 用 于 决定 一 个 对 象 所 属 的 类 别 , 训练 决策 域 的 目标 主要 用 来 判 
断 分 类 结果 的 质量 。 








8.2 ”从 归 类 理论 到 经 典 分 类 理论 


分 类 算法 希望 学 到 的 类 输入 认 知 表示 (X, Simx). (ASE, 在 实际 的 归 类 算法 
设计 中 , 由 于 其 是 期 望 学 到 的 东西 ,只 可 能 推测 (X,Simx) 的 形式 , 算法 真正 通 
过 学 习 得 到 的 只 能 是 输出 类 认 知 表示 (Y, Simy)。 由 于 类 唯一 性 公理 对 于 分 类 问 
题 不 再 严格 成 立 ， 类 一 致 性 准则 成 为 (Y, Simy) 近似 逼近 (X, Simx ) 的 保证 。 

分 类 问题 属于 多 类 问题 。 理 论 上 , 多 类 问题 比 单 类 问题 研究 困难 得 多 。 因 
Jb, 经 典 分 类 理论 将 分 类 问题 约 化 为 了 回归 问题 . 为 此 , 需要 对 分 类 问题 定义 回 
ARX 4 U 是 正则 划分 时 ， 有 Vk € {1,2,---,N}, Zk € {1,2,… ,C}， 故 可 
以 定义 分 类 问题 的 期 望 回归 函数 为 p(zk) = 起 。 由 于 归 类 等 价 公 理 成 立 ， 因 此 
必 有 Vk(p(zx) = Ek)。 同样 , 当 V 是 正则 划分 则 学 到 的 回归 函数 可 以 定义 为 
Alyn) = Teo 同样 , 归 类 等 价 公理 保证 Vk(h(yx) = Ge) 
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更 一 般 地 ,对 于 同一 个 对 象 。, WE z 为 其 输入 表示 , y 为 其 输出 表示 ,并 假 
设 y = 9(z), 可 以 定义 分 类 问题 的 期 望 回 归 函 数 为 p(z) = a. 学 到 的 回归 函数 为 
h(x) = h(8(x)) = h(y) = Go BYR, h(x) 代表 学 到 的 预测 类 标 函 数 。 


zı p(z) zı h(x) 
根据 以 上 记号 , px- |2 | y [9 a| z. 
ZN p(en) zy h(a) 


(c, p(r)) Y. = (z,h(z))。 于 是 , 分 类 问题 可 以 看 作 回归 问题 。 此 时 ，p(z) 称 
为 类 标 函 数 , h(z) 称 为 类 标 预 测 函 数 。 期望 学 到 的 类 标 函数 p(z) 所 组 成 的 集合 称 
为 目标 空间 工 , 分 类 器 学 到 的 所 有 可 能 的 类 标 预测 函数 h(z) 所 组 成 的 集合 称 为 
假设 空间 记 为 H. 

基于 以 上 表示 ， 下面 将 基于 提出 的 归 类 理论 导出 两 种 常见 的 经 典 分 类 理 
论 : PAC 理论 和 统计 学 习 理论 。 





8.2.1 PAC 理论 


对 于 单 类 问题 , 类 表示 唯一 公理 要 求 X= Y 成 立 , 也 就 是 要 求 Yz(p(z) = 
h(z))。 此 意味 着 类 标 函 数 与 类 标 预测 函 数 相等 ,这 一 要 求 对 于 分 类 问题 来 说 显 
然 过 高 。 原因 很 简单 , 实际 应 用 中 ,类 标 函 数 p(x) 未 知 ,只 知 其 有 限 个 值 pler)» 
Jt k € {1,2,… ,N}。 即 使 p(z) = h(x) 在 zi,z2,… ,ZN 这 有 限 个 对 象 上 成 
立 ， 也 远 远 不 能 保证 Vz(p(z) = h(z)), 除非 有 很 强 的 理论 假设 条 件 。 如 果 假 设 
H(|Ts #4 Ø, BI p(x) e H 成立, 则 五 中 存在 类 标 预测 函数 可 以 将 所 有 对 象 按 与 
实际 的 类 标 函 数 相同 的 方式 进行 标定 ,此 时 , 该 归 类 问题 对 学 习 算 法 来 说 是 可 分 
的 。 EW, 五 站 Ts = e. BI p(x) é HRX, 则 五 中 不 存在 任何 类 标 预测 函数 可 
以 将 所 有 对 象 按 与 类 实际 的 类 标 函 数 相同 的 方式 进行 标定 ， 此 时 , 该 归 类 问题 对 
学 习 算 法 来 说 是 不 可 分 的 。 

给 定 训练 集 (X,U), 不 管 该 归 类 问题 是 否 可 分 ,类 一 致 准则 都 要 求 p(z) 与 
h(x) 尽 可 能 一 致 , 因此 学 到 的 类 标 预测 函数 h(z) 也 不 可 能 错误 率 为 零 。 所 以 , 需 
要 估计 学 到 的 类 标 预测 函数 h(x) 的 错误 率 。 在 机 器 学 习 中 , 分 类 算法 可 以 保证 学 
到 的 类 标 预 测 函数 在 训练 集 上 的 效果 较 好 , 但 是 一 般 不 能 保证 其 在 测试 集 上 的 预 
测 效果 。 对 于 分 类 算法 来 说 ， 人 们 通常 期 望 学 到 的 类 标 预 测 函数 在 测试 数据 上 性 
能 能 够 满足 需求 , 即 学 习 算 法 的 泛 化 能 力 要 好 。 所 谓 泛 化 能 力 是 指 类 标 预 测 函 数 
对 未 见 数 据 Cunseen data) 的 预测 能 力 。 一 个 理想 的 分 类 算法 应 该 在 测试 集 上 具 
有 和 良好 的 预测 效果 , 即 泛 化 能 力 要 好 。 显然 , 泛 化 能 力 是 学 习 的 最 终 目 标 之 一 , 泛 
化 能 力 较 好 的 学 习 方 法 意味 着 预测 未 见 数据 的 能 力 更 强 。 怎 么 测度 泛 化 能 力 呢 ? 


114 机 器 学 习 : 从 公理 到 算法 





考虑 到 训练 集 (X,U) 只 是 反映 的 类 的 一 个 有 限 抽 样 , 学 到 的 类 标 预测 函数 
h(x) 的 错误 率 可 能 随 着 抽样 的 变化 而 不 同 。 换 名 话说 , h(z) 的 错误 率 只 在 抽样 分 
布下 有 意义 。 这 样 , 类 一 致 准则 要 求 Yz(p(z) = h(a)) 尽 可 能 成 立 也 只 能 是 在 概率 
上 尽 可 能 成 立 。 综合 以 上 分 析 可 知 , 计算 Pr(p(z) = h(z)) 对 于 分 类 问题 来 说 理论 
意义 更 大 一 些 , 这 里 Pr() 表示 概率 。 

在 已 知 训练 集 (X,U) 的 情况 下 , 计算 Pr(p(z) = h(z)) 是 一 个 非常 困难 的 事 
情 。 最 自然 的 假设 是 知道 数据 集 XX 服从 的 抽样 分 布 已 , 即 用 抽样 分 布 己 来 代替 
数据 集 和 。 更 精确 的 说 法 是 假设 所 有 zk 都 独立 服从 同一 个 隐 含 的 概率 分 布 已。 

由 此 可 以 定义 泛 化 错误 率 (generalization error rate) 如 下 : 





R(h) = Pr; p[h(x) # p(x)] = Ez Pllnzyzo)] (8.1) 


所 谓 泛 化 错误 率 是 指 类 标 函 数 与 类 标 预测 函数 不 同 的 概率 。 泛 化 错误 率 也 就 
是 所 学 到 类 表示 的 期 望 风险 , 它 反映 了 学 习 方法 的 泛 化 能 力 , 学 习 的 类 表示 有 具有 
更 小 的 泛 化 错误 率 说 明 该 类 表示 更 有 效 。 注 意 到 R(h) = 1 — Pr(p(z) = h(z)), 类 
一 致 性 准则 要 求 泛 化 错误 率 不 要 太 大 , 最 好 在 实际 应 用 中 可 以 容忍 的 泛 化 错误 率 
以 内 。 即 使 在 最 坏 的 情形 下 , 泛 化 错误 率 有 时 大 于 容忍 的 错误 率 , 但 这 样 的 情形 
在 概率 意义 下 发 生 的 可 能 性 也 是 受 控 于 实际 应 用 需要 的 。 据 此 可 以 进一步 定义 
PAC (probably approximately correct) 辨识 。 

PAC 辨识 : 对 0 «60 < 1, 所 有 类 标 函 数 p(x) € Ts 和 抽样 分 布 P, 如 果 存 
在 学 习 算 法 %， 其 输出 类 标 预测 函数 h(x) © H WE Pr(R(h) < €) > 1— 6. 则 称 
学 习 算法 处 能 够 从 假设 空间 五 中 辨识 目标 空间 Ts 中 的 类 标 函 数 。 

显然 PAC 辨识 是 类 表示 唯一 公理 的 一 种 弱化 形式 。 满足 PAC 辨识 的 学 习 算 
法 处 可 以 很 大 的 置信 和 度 (至 少 不 小 于 1 一 50) 学 到 目标 空间 Ts 中 的 某 个 类 标 函 数 
p(x) 的 近似 (误差 最 多 为 e). 在 此 基础 上 , 可 以 进一步 定义 PAC 可 学 习 的 概念 。 
为 此 , 假设 对 服从 抽样 分 布 己 的 数据 集 AX, 学 习 算 法 义 输 出 的 类 标 预测 函数 表示 
为 hx。 

PAC 可 学 习 : 4 N 为 根据 抽样 分 布 忆 独立 同 分 布 得 到 的 数据 集中 的 样 例 
数目 , 如 果 存 在 学 习 算法 处 和 一 个 多 项 式 函数 poly(), 对 0 < e 5 < 1, 所 有 类 标 函 
A p(x) € Ts 和 抽样 分 布 已 , 其 在 数据 集 (X,U) 中 输出 的 类 标 预测 函数 hx (a) € 
H WAE Prywpw(R(hx) 入 日 >1-5， 其 中 > ploy (2, .size(z),size(p(2)) 
则 称 目标 空间 Ts 对 于 假设 空间 H 是 PAC 可 学 习 的 (有 时 也 简称 目标 空间 Ts 
是 PAC 可 学 习 的 )。 这 里 ， ploy(Ż, site) size(p(or))) 是 一 个 以 a 5 site), 
size(p(x)) 为 变量 的 多 项 式 函数 ,size(z) 表示 r 的 最 大 计算 开销 ,size(p(z)) 表示 
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p(x) 的 最 大 计算 开销 。 比 如 xz 是 R? 中 的 一 个 向 量 , 则 其 向 量 表 示 的 计算 开销 即 
为 O(p)。 

对 于 具体 的 学 习 算 法 来 说 , 计算 复杂 度 也 是 必须 考虑 的 因素 ， 由 此 得 到 PAC 
学 习 算 法 的 定义 。 

PAC 学 习 算 法 (PAC Learning Algorithm): 如 果 学 习 算 法 A 使 目标 
空间 Ts 是 PAC 可 学 习 的 ， 且 的 运行 时 间 也 是 ploy(Ż, ~  size(2),size(o(s))) 
则 称 目标 空间 Ts 是 高 效 PAC 可 学 习 的 , 外 为 目标 空间 Ts 的 PAC 学 习 算 法 。 

如 果 学 习 算 法 A 处 理 每 个 样本 的 时 间 为 一 个 常数 ， 则 久 的 时 间 复 杂 度 等 价 
于 样本 复杂 度 。 所谓 的 样本 复杂 度 定义 如 下 : 

样本 复杂 度 (sample complexity): 满足 PAC 学 习 算 法 所 需 的 样本 个 
数 N > ploy(2, 5,size(2),size(o(e))) 中 最 小 的 N， 称 为 学 习 算法 的 样本 复 

显然 , PAC 学 习 是 类 唯一 性 公理 在 分 类 问题 上 的 推广 框架 ,是 符合 类 一 致 性 
准则 的 一 个 分 类 问题 理论 描述 框架 ,对 于 分 类 问题 给 出 了 一 个 很 深刻 的 理论 研究 
框架 。 在 这 个 框架 内 , 可 以 对 学 习 算 法 的 学 习 能 力 进行 理论 研究 。 有 兴趣 的 读者 ， 
可 以 参考 文献 [1,2]。 








8.2.2 ”统计 学 习 理 论 


PAC 学 习 理 论 定义 了 泛 化 错误 率 (8.1)。 该 泛 化 错误 率 的 计算 假设 过 于 理论 
化 ， 需 要 考虑 样本 的 抽样 分 布 。 但 是 ,在 学 习 过 程 中 能 够 利用 的 数据 集 只 有 训练 
R, 抽样 分 布 并 不 知道 , 因此 , 在 学 习 过 程 中 不 得 不 使 用 训练 数据 集 的 平均 损失 
来 代替 泛 化 能 力 。 说 得 更 清楚 一 些 , 即 用 经 验 风险 或 经 验 损 失 L(p(x), h(x)) 来 代 
替 泛 化 能 力作 为 设计 分 类 算法 的 判 据 。 根 据 类 一 致 性 准则 的 方法 使 得 类 标 函 数 
与 类 预测 函数 误差 要 小 , 也 就 是 期 望 经 验 风险 越 小 越 好 。 为 了 评估 学 习 方法 的 泛 
化 能 力 ， 可 以 把 观察 到 的 数据 分 成 两 部 分 。 一 部 分 当 作 已 知 数据 集 ， 称 为 训练 数 
Hi (training data); 其 余部 分 当 作 未 见 数 据 的 代表 ， 称 为 测试 数据 (test data). 
训练 数据 集 上 的 经 验 风 险 也 称 训练 误差 (training error)， 是 指 模型 在 训练 数据 集 
上 的 平均 误差 , 即 学 习 算法 在 所 训练 集 上 的 经 验 误 差 。 其 定义 如 下 : 


Dih, p) = X Mole), hr) 


其 中 1(p(z),h(z)) 是 损失 函数 , N 代表 训练 数据 集中 的 对 象 个 数 。 
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测试 错误 率 (test error rate) 指 测试 样本 集 Xr 中 被 h(x) 误 分 类 的 数据 所 占 
的 比例 。 


Nr 

; 1 

R= pm (8.2) 
k=l 


在 测试 集 与 训练 集 服从 独立 同 分布 假 设 下 , 可 以 证 明 E(R(h)) = R(h)。 据 此 可 
知 , 用 测试 错误 率 来 估计 分 类 算法 的 泛 化 能 力 是 可 行 的 。 

由 于 假设 空间 有 时 包含 很 多 类 标 预测 函数 ,可 能 存在 多 个 甚至 无 穷 个 类 标 预 
测 函 数 满足 观测 数据 , 为 了 选 出 某 个 类 标 预 测 函 数 , 通常 需要 在 判 据 设 定 前 , 利 
用 先 验 知识 对 类 标 预 测 函数 的 形式 做 一 个 偏好 选择 。 

在 假设 空间 、 损失 函数 和 训练 集 已 知 的 情况 下 , 经 验 风 险 就 可 以 确定 。 类 一 
致 性 准则 要 求 经 验 风险 最 小 , 即 经 验 风险 最 小 的 模型 是 最 优 的 模型 。 从 而 ， 分 类 
问题 变 成 求解 最 优化 问题 : minnez D(h, p). 

当 样本 代表 性 足够 充分 且 假设 空间 与 目标 空间 匹配 时 ， 经 验 风险 最 小 化 能 够 
保证 有 很 好 的 学 习 效果 , 即 学 到 的 类 标 预 测 函 数 在 测试 集合 上 也 会 有 良好 的 泛 化 
性 能 。 这 当然 是 理想 的 状态 。 在 实际 设计 分 类 算法 的 过 程 中 , 如果 学 到 的 类 标 预 
测 函 数 的 表示 能 力 比 期 望 的 类 标 函 数 表示 能 力 简单 ， 此 时 训练 误差 一 般 较 大 , 测 
试 误差 通常 也 很 大 , 这 意味 着 学 到 的 类 标 预测 函数 不 能 较 好 地 预测 数据 ， 这 种 现 
象 称 为 欠 拟 合 (under-fitting)。 对 于 欠 拟 合 问 题 , 现在 已 经 有 足够 的 方法 来 处 理 ， 
本 质 上 是 增加 类 标 预测 函数 的 复杂 度 。 但 是 , 对 于 本 身 类 标 预 测 函 数 表示 能 力 已 
经 很 强 的 学 习 算 法 , 如 果 过 度 减 少 训练 误差 , 那么 经 验 风险 最 小 化 可 能 会 使 得 学 
习 的 类 标 预 测 函 数 非常 复杂 , 而 且 , 在 样本 个 数 比较 少时 , 过 分 复杂 的 类 标 预测 
函数 可 能 会 导致 其 在 训练 集 上 效果 非常 好 , 而 在 测试 集 上 的 效果 很 差 .如 图 8.1 























泛 化 错误 率 


类 表示 复杂 度 


训练 错误 率 








类 表示 能 力 
图 8.1 结构 风险 最 小 化 示意 图 


第 8 章 分 类 理论 117 





所 示 。 这 就 是 过 拟 合 (over-fitting), 即 学 到 的 类 标 预测 函数 过 分 地 拟 合 训练 数据 。 
显然 过 拟 合 违 反 了 奥 卡 姆 剃刀 准则 , 在 类 标 预测 函数 中 引入 了 不 必要 的 复杂 性 。 
为 了 防止 过 拟 合 现象 的 出 现 , 在 经 验 风险 最 小 化 的 同时 考虑 奥 卡 姆 剃刀 准则 , HI 
在 性 能 相同 的 时 候选 择 最 简单 的 类 标 预测 函数 ,这 就 是 文献 中 常 说 的 模型 结构 
风险 最 小 化 (structural risk minimization)。 模 型 结构 风险 最 小 化 的 目的 就 是 选择 
合适 而 又 简单 的 类 标 预 测 函数 。 在 分 类 算法 中 , 文献 中 一 般 将 类 标 预测 函数 称 为 

综合 以 上 论述 ,同时 考虑 类 一 致 性 准则 和 奥 卡 姆 剃刀 准则 就 得 到 所 谓 的 模型 
结构 风险 最 小 化 准则 。 更 加 直 白 的 说 法 是 , 在 经 验 风险 的 基础 上 再 加 上 模型 复杂 
度 的 正则 项 或 者 惩罚 项 , 其 数学 表 公 式 为 : 


N 
pip yD on hn) + MO (83) 
Hep, J(h) 在 机 器 学 习 文献 中 称 为 正则 化 项 ,， 有 时 又 称 惩罚 项 , 表示 h 的 结构 复 
杂 度 ; 入 越 大 表明 惩罚 力度 越 大 , 等 于 0 表示 不 做 惩罚 ; N 为 所 有 样本 的 数量 。 

一 般 来 说 , 模型 越 复 杂 , 正则 化 值 就 越 大 。 因 为 越 复杂 的 模型 , 在 训练 集 上 的 
误差 就 越 小 , 就 越 容易 发 生 过 拟 合 现象 , 所 以 要 增加 一 项 比较 大 的 正则 化 项 来 调 
整 模型 , 来 避免 过 拟 合 。 正 则 化 模型 选择 方法 在 设 定 分 类 判 据 时 , 平衡 考虑 了 类 
一 致 性 准则 和 奥 卡 姆 剃刀 准则 两 方面 。 

模型 结构 风险 最 小 化 是 一 个 模型 选择 问题 。 在 模型 选择 问题 中 ，Wolpert 
和 Macerday 在 1995 年 提出 了 著名 的 没有 免费 的 午餐 定理 (no free lunch theo- 
rems，NFL)。 该 定理 说 明 学 习 模型 是 问题 依赖 的 , 没有 任何 一 个 普 适 的 模型 适用 
于 所 有 问题 。 因 此 , 在 模型 选择 中 最 重要 的 是 适用 性 选择 , 即 以 完成 任务 的 性 能 
好 坏 为 模型 (或 者 算法 ) 选择 的 首要 因素 。 在 泛 化 性 能 满足 需要 的 前 提 下 , 下 一 
步 的 问题 才 是 选择 简单 的 模型 。 如 果 泛 化 性 能 不 能 满足 需要 , 单纯 追求 简单 的 模 
型 也 是 违反 奥 卡 姆 剃刀 准则 的 。 一 般 说 来 , 泛 化 性 能 与 可 解释 性 是 机 器 学 习 算 法 
设计 者 设计 学 习 算法 的 两 个 追求 。 面 对 具 体 的 学 习 任务 , 最 理想 的 选择 是 选 出 泛 
化 性 能 和 解释 能 力 都 好 的 学 习 算 法 。 但 是 , 一 般 情况 下 , 泛 化 性 能 与 可 解释 性 是 
两 个 互相 冲突 的 要 求 , 大 部 分 学 习 算法 难以 同时 满足 这 两 个 追求 ， 一 般 会 有 所 偏 
重 。 偏 重 性 能 优先 的 一 般 是 黑箱 算法 ， 比 如 神经 网 路 、 随 机 决策 树 、 集 成 学 习 等 。 
偏重 解释 优先 的 一 般 是 白 箱 算法 ,如 最 近邻 、SVM、 概 率 图 等 。 对 于 机 器 学 习 算 
法 设计 和 选择 来 说 ,如 何 权衡 泛 化 性 能 与 可 解释 性 可 能 是 始终 要 面 对 的 一 个 研究 
难题 。 
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8.3 ”分 类 测试 公理 


对 于 所 有 分 类 算法 来 说 , 需要 评估 其 分 类 结果 (Y, V, Y, Simy) 的 好 坏 。 这 
极 具 挑战 性 。 一般 需 要 提供 一 个 测试 集 (Xz,Ur)。 而 (X,U) 称 为 训练 集 。 显 
然 ， 对 于 测试 集 (Xr Ur) 来 说 ， 其 对 应 的 内 部 表示 (Xz,Simxz) 也 存在 。 如 
RHE (Xr, Ur, Xr, Simx,) 当 作 分 类 输入 ， 则 其 对 应 的 分 类 结果 可 以 表示 为 
(Yr, Vr, Yr, Simy, )« 

理论 上 , 同一 个 分 类 算法 的 测试 集 与 训练 集 应 该 表示 的 是 同一 个 归 类 任务 ， 
类 表示 是 不 变 的 , 因此 , 测试 类 表示 一 致 公理 可 以 表示 如 下 。 

分 类 测试 类 表示 一 致 公理 : 对 于 一 个 分 类 问题 来 说 , 如 果 其 训练 集 是 (X, U), 
其 测试 集 为 (Xm, Ur), WA (X,Simx)=(Xz,Simxz)。 

自然 , 测试 类 表示 一 臻 公理 提供 了 分 类 算法 对 未 知 样本 具有 泛 化 能 力 ( 推 广 
能 力 ) 的 先决 条 件 。 这 个 条 件 非常 苛刻 。 

但 是 , 这 是 非常 强 的 理论 假设 。 通常 , X 能 近似 Xm 就 不 错 了 。 有 时 , X 与 
Xr 差别 巨大 , UEF X Al Xr 都 不 能 被 认为 是 同一 个 分 类 问题 。 在 这 种 情况 下 ， 
测试 结果 完全 不 可 信 ， 因 此 对 应 的 分 类 算法 的 泛 化 能 力 到 底 如 何 就 不 能 由 测试 结 
果 来 推测 了 。 

实际 上 , 即使 分 类 测试 类 表示 一 致 公理 成 立 ， 要 估计 分 类 算法 的 学 习 能 力 还 
需要 考虑 样本 的 抽样 分 布 。 

分 类 测试 抽样 一 致 公理 : 对 于 一 个 分 类 问题 来 说 ， 训 练 集 (X,U) 与 测试 集 
(Xr, Ur) 中 的 样本 彼此 独立 且 服从 统一 的 抽样 分 布 。 

如 果 训 练 集 与 测试 集 的 抽样 分 布 不 同 ， 分 类 算法 的 泛 化 能 力也 是 难以 估计 
的 。 分 类 测试 抽样 一 致 公理 即 是 机 器 学 习 文 献 中 常见 的 独立 同 分 布 假设 。 如 果 学 
习 算 法 学 习 的 是 样本 密度 分 布 , 则 分 类 测试 类 表示 一 致 公理 与 分 类 测试 抽样 一 至 
公理 等 价 。 当 学 习 算 法 学 习 到 的 类 表示 与 样本 密度 分 布 独立 时 ， 分 类 测试 类 表示 
一 致 公理 与 分 类 测试 抽样 一 致 公理 要 求 不 同 。 在 这 种 情况 下 ,分 类 测试 类 表示 一 
致 公理 成 立 不 能 保证 分 类 测试 抽样 一 臻 公理 成 立 。 比 如 , 要 学 习 什 么 是 海洋 什么 
FER, 显然 , 海洋 与 天 空 的 类 表示 与 训练 集中 的 海洋 与 天 空 的 样 例 比 例 没有 关 
系 。 这 时 ， 如 果 测 试 集中 的 所 有 样本 都 是 关于 海洋 与 天 空 的 , 即使 训练 集中 的 海 
洋 与 天 空 的 样 例 比例 与 测试 集中 的 海洋 与 天 空 的 样 例 比例 不 同 , 我 们 应 该 也 认为 
分 类 测试 类 表示 一 致 公理 成 立 , 但是， 分 类 测试 抽样 一 致 公理 并 不 成 立 。 同 样 的 ， 
分 类 测试 抽样 一 致 公理 也 不 能 保证 分 类 测试 类 表示 一 致 公理 一 定 成 立 。 比 如 , 训 
练 样 例 由 一 角 硬 币 的 正 反面 组 成 , 任务 是 识别 是 图 像 是 一 角 硬 币 的 正 反 面 , 训练 
样 例 的 一 角 硬 币 的 正 反 面 出 现 完 全 由 抛 硬币 决定 。 测试 样 例 由 一 元 硬币 的 正 反 面 
组 成 , 测试 样 例 的 一 元 硬币 的 正 反面 出 现 也 完全 由 抛 硬币 决定 。 这 时 ， 分 类 测试 
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类 表示 一 致 公理 不 成 立 , 但 是 , 分 类 测试 抽样 一 致 公理 是 成 立 的 。 一 般 情形 下 , 分 
类 测试 类 表示 一 致 公理 和 归 类 测试 抽样 一 致 公 理 总 是 假设 成 立 , 否则 测试 完全 没 
有 意义 。 

理论 上 , WRU 5 Ur 已 知 , 在 分 类 测试 类 表示 一 致 公理 和 分 类 测试 抽样 一 
致 公理 成 立 的 假设 下 , 可 以 通过 计算 分 类 的 错误 率 来 估计 分 类 结果 的 好 坏 。 这 方 
面 更 具体 详细 的 结果 , 可 以 参考 周志 华 教授 所 著 《 机 器 学 习 》。 


it 论 


本 章 讨论 了 机 器 学 习 中 与 分 类 相关 的 一 般 理 论 问题 , 特别 是 本 书 中 的 机 器 学 
习 公 理化 体系 与 PAC Hit. 统计 学 习 理论 之 间 的 关系 。 在 本 章 中 没有 讨论 本 书 
中 的 机 器 学 习 公理 化 体系 与 贝 叶 斯 理论 的 关系 ,是 因为 贝 叶 斯 理论 与 类 认 知 表示 
的 特殊 假设 有 关 , 不 能 处 理 类 表示 不 是 概率 分 布 或 密度 的 分 类 算法 , 而 本 书 中 的 
机 器 学 习 公 理化 体系 、PAC 理论 、 统计 学 习 理论 都 可 以 解释 类 认 知 表示 不 是 概率 
分 布 或 密度 的 分 类 算法 , 对 于 分 类 算法 中 的 类 认 知 表示 不 强制 限定 为 概率 分 布 或 

在 讨论 过 与 分 类 相关 的 一 般 理论 问题 之 后 ,本 书 将 讨论 具体 的 分 类 算法 。 根 
据 奥 卡 姆 剃刀 准则 , 首先 讨论 单 源 数据 下 的 分 类 器 。 在 单 源 数据 下 , 容易 知道 , 单 
类 学 习 算 法 比 多 类 算法 表示 相对 简单 一 些 。 因 此 , 本 书 中 将 首先 讨论 将 多 分 类 化 
成 单 类 的 多 分 类 算法 : 基于 单 类 的 分 类 算法 , 神经 网 络 多 分 类 算法 基本 可 以 看 做 
是 这 类 思想 的 典型 代表 。PAC 学 习 理 论 和 统计 学 习 理论 也 是 在 将 分 类 化 成 单 类 的 
情况 下 建立 的 机 器 学 习 理 论 。 著 名 的 统计 学 习 理论 发 明 人 把 学 习 问 题 被 定义 为 : 
学 习 就 是 一 个 基于 经 验 数据 的 函数 估计 问题 回 。 这 种 定义 明显 将 分 类 问题 视 为 单 
类 问题 。 但 是 ,这 并 不 是 所 有 分 类 算法 采用 的 学 习 定义 。 

在 不 将 多 类 问题 化 为 单 类 的 情形 下 , 按照 类 表示 的 复杂 程度 , EX =Y 的 假 
BER, 依次 讨论 了 天 -近邻 分 类 算法 、 线 性 分 类 器 、 对 数 线性 分 类 模型 、 贝 叶 斯 分 
类 和 决策 树 等 分 类 算法 。 在 关 Y 的 假设 下 , 讨论 了 多 分 类 降 维 与 升 维 问题 。 最 
后 讨论 了 多 源 数 据 学 习 。 


习 题 
1. 为 什么 说 PAC 理论 是 类 表示 唯一 公理 的 近似 版 本 ? 
2. 为 什么 说 统计 学 习 理论 服从 类 一 致 性 准则 和 奥 卡 姆 剃刀 准则 ? 
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一 发 不 可 罕 ， 军 之 动 全 身 . 





【 清 】 歼 自 珍 《 自 春 租 秋 偶 有 所 感触 》 


从 归 类 表示 可 知 , c > 1 时 的 归 类 表示 比 c = 1 时 的 归 类 表示 要 复杂 许多 。 因 
Jt, 设计 分 类 算法 时 一 个 常用 的 想法 是 将 分 类 问题 转化 为 单 类 问题 。 本 章 将 介绍 
一 些 将 分 类 问题 视 为 单 类 问题 的 典型 学 习 模型 。 


9.1 分 类 问题 的 回归 表示 


为 了 表述 更 清楚 ,本 节 将 重新 研究 分 类 问题 的 回归 表示 。 第 8 章 已 经 将 分 类 
问题 化 为 了 一 种 特殊 的 回归 问题 。 但 是 , 还 有 另外 的 方式 可 以 将 分 类 问题 化 为 一 
般 的 回归 问题 。 下 面 将 给 出 另外 一 种 更 常见 方法 。 

根据 以 前 的 分 析 可 以 知道 , 分 类 问题 的 输入 可 以 表示 为 (X,U,X,Simx)， 
输出 可 以 表示 为 (Y, V, Y, Simy). X FIX A, (X, Simx, Y Simy) 是 未 知 
元 素 ， 而 (X,U) GH. WHS Vk, f(z) = (faex). f(Tk),… ,无 (zh))， 其 中 


z fla) 
ViVk, file) = wu, 则 (XI 可 以 表示 为 | Ps .同样 地 , (Y, V) 可 以 表 
zw Slew) 
y hi) 
示 为 | ™ POD |, steve, hlon) = (Qu) han), Pai): Vs Gn) = 
w My) | 


Vine & X = (x, f(x)) MY = (y, h(y)). WR X = Y 则 可 以 知道 分 类 问题 可 以 视 
为 一 个 一 般 的 回归 问题 ， 而 不 是 一 个 特殊 的 回归 问题 ， 此 时 必 有 z = yo 
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更 一 般 地 , 30 — 2 时 ,除了 以 前 的 两 种 方式 , 在 文献 中 还 有 另外 两 种 常见 的 
方式 将 分 类 化 为 回归 问题 。 一 种 方式 是 假设 VE, pler), hler) € {0,1}, 另 一 种 方 
式 是 假设 YE, p(x), h(zx) <{ 一 11。 从 上 面 可 以 看 出 ,分 类 问题 存在 的 回归 表示 
不 止 一 种 。 虽 然 这 些 分 类 问题 的 回归 表示 在 指称 意义 下 等 价 , 但 是 不 同 的 分 类 回 
归 表 示 影 响 着 分 类 算法 的 设计 。 

如 果 将 分 类 问题 看 做 回归 问题 ,由 于 回归 问题 是 单 类 问题 ， 类 表示 唯一 公 
理 成 立 需要 满足 天 = Y, 这 表明 Vz(f(z) = h(z))。 但是， 这 个 要 求 太 高 。 因 
此 ,只 能 退 而 求 其 次 , 满足 类 一 致 性 准则 。 由 类 一 致 性 准则 , 对 于 分 类 模型 期 望 
È DU Gs) ha) 最 小 ,也 就 是 经 验 风险 最 小 。 如 果 考虑 回归 函数 的 复杂 度 , 则 


有 结构 风险 最 优化 。 对 于 回归 问题 来 说 , 最 重要 的 是 回归 函数 的 设计 和 优化 。 将 
分 类 问题 看 成 回归 问题 , 这 方面 最 有 代表 性 的 算法 是 神经 网 络 算法 。 实际 上 , 在 
神经 网 络 分 类 算法 中 , 神经 网 络 表示 的 就 是 回归 函数 。 由 于 神经 网 络 分 类 算法 的 
主要 研究 内 容 就 是 神经 网 络 的 设计 和 优化 , 因此, 可 以 说 神经 网 络 分 类 算法 的 主 
要 研究 内 容 就 是 回归 函数 的 设计 和 优化 。 对 于 神经 网 络 算法 来 说 ,回归 与 分 类 是 
同样 的 问题 。 





9.2 ”人工 神经 网 络 


人 工 神 经 网 络 (artificial neural network，ANN)， 简 称 神 经 网 络 (neural 
network, NN), 是 一 种 受 生物 神经 网 络 的 结构 和 功能 启发 而 发 展 出 来 的 数学 模型 
或 计算 模型 。 对 于 分 类 来 说 , 一 个 神经 网 络 算法 就 是 构造 一 个 合适 的 回归 函数 。 
分 类 神经 网 络 就 是 一 个 通过 多 层 非 线性 函数 复合 运算 形成 的 一 个 函数 。 神 经 网 络 
的 复合 层 数 在 限定 每 层 宽度 的 情况 下 可 以 大 体 表 示 神 经 网 络 的 复杂 度 。 


9.2.1 ”人 工 神经 网 络 相 关 介 绍 


神经 网 络 是 一 种 网 络 上 的 运算 模型 ， 由 大 量 的 节点 (也 称 “ 神 经 元 ”, 或 “ 单 
元 ”) 和 彼此 间 的 相互 连接 构成 。 每 个 节点 代表 一 种 特定 函数 运算 , 称 为 激励 函 
数 (activation function)。 每 两 个 节点 间 的 连接 都 代表 一 个 对 于 通过 该 连接 信和 号 
的 加 权 值 ， 称 之 为 权重 (weight)。 网 络 的 输出 则 依 网 络 的 连接 方式 、 权 重 值 和 
激励 函数 的 不 同 而 不 同 。 下 面 是 部 分 与 构造 人 工 神 经 网 络 有 关 的 神经 元 生理 学 
知识 。 

神经 元 与 神经 元 通过 突 触 建立 了 广泛 的 联系 , 构成 了 极端 复杂 的 神经 网 络 ， 
从 而 实现 了 信息 的 接收 、 传 递 和 处 理 。 神 经 网 络 的 基本 联系 方式 主要 有 三 种 : 第 
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一 种 是 辐射 式 ， 即 一 个 神经 元 的 轴 突 通过 它 的 末梢 分 支 与 许多 神经 元 建立 突 触 联 
系 。 这 种 联系 可 以 使 一 个 神经 元 的 兴奋 引起 多 个 神经 元 的 同时 性 兴奋 或 抑制 。 传 
入 神经 元 主要 按照 辐射 式 建立 突 触 联系 。 第 二 种 是 聚合 式 ， 即 许多 神经 元 的 神经 
末梢 共同 与 一 个 神经 元 建立 突 触 联系 。 这 许多 神经 元 可 能 都 是 兴奋 的 或 都 是 抑制 
的 ,也 可 能 有 的 引起 兴奋 ， 有 的 引起 抑制 ,它们 聚合 起 来 共同 决定 着 突 触 后 神经 
元 的 活动 状态 。 这 种 联系 表现 了 神经 兴奋 在 时 间 和 空间 上 的 整合 作用 。 传 出 神经 
元 主要 按照 聚合 式 建立 突 触 联系 。 第 三 种 是 环 式 ， 即 一 个 神经 元 发 出 的 神经 冲动 
经 过 几 个 中 间 神 经 元 ， 又 传 回 至 原 发 冲动 的 神经 元 。 它 使 神经 冲动 在 这 个 回路 内 
往返 传递 , 形成 时 间 上 的 多 次 加 强 。 以 上 神经 元 的 各 种 联系 方式 , 是 神经 系统 协 
调 反 射 活动 的 基础 。 

人 工 神经 网 络 , 如 图 9.1 所 示 , 是 一 种 由 大 量 处 理 单元 互联 组 成 的 非 线 性 、 自 
适应 的 信息 处 理 系统 。 它 是 在 现代 神经 科学 研究 成 果 的 基础 上 提出 的 , 试图 通过 
模拟 大 脑 神 经 网 络 处 理 、 记 忆 信息 的 方式 进行 信息 处 理 。 人 工 神经 网 络 具 有 四 个 
基本 特征 : 

1. 非 线性 ” 非 线 性 关系 是 自然 界 的 普遍 特性 。 大 脑 的 活动 就 是 一 种 非 线 性 
现象 。 人工 神经 元 处 于 激活 或 抑制 两 种 不 同 的 状态 , 这 种 行为 在 数学 上 表现 为 一 
种 非 线 性 关系 。 具有 阔 值 的 神经 元 构成 的 网 络 具 有 更 好 的 性 能 , 可 以 提高 容错 
和 存储 容量 。 

2. 非 局 限 性 ”一 个 神经 网 络 通常 由 多 个 神经 元 广泛 连接 而 成 。 一 个 系统 的 
整体 行为 不 仅 取决 于 单个 神经 元 的 特征 ,而 且 也 取决 于 单元 之 间 的 相互 作用 、 相 
互 连 接 。 神 经 网 络 通过 单元 之 间 的 大 量 连接 模拟 大 脑 的 非 局 限 性 。 

3. 非常 定性 ”人工 神经 网 络 具 有 自 适应 、 自 组 织 、 自 学 习 能 力 。 神 经 网 络 经 
常 采用 一 个 动力 系统 来 表示 信息 的 处 理 过 程 。 在 学 习 过 程 中 , 不 但 处 理 的 信息 在 
演化 ， 该 动力 系统 自身 也 在 演化 。 











输出 神经 元 


隐 含 神经 元 


输入 神经 元 








9.1 神经 网 络 
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4. 非 凸 性 ”一 个 神经 网 络 系统 的 演化 方向 , 在 一 定 条 件 下 将 取决 于 某 个 特 
定 的 函数 , 例如 目标 函数 和 激活 函数 。 神 经 网 络 目标 函数 的 极 值 相应 于 系统 比较 
稳定 的 状态 。 由 于 当前 的 神经 网 络 已 经 放弃 了 线性 激活 函数 , 通常 使 用 非 线性 激 
活 函数 ,如 Sigmoid 函数 等 , 这 导致 了 神经 网 络 目标 函数 的 非 凸 性 。 神 经 网 络 目 
标 函 数 的 非 凸 性 是 指 这 种 目标 函数 具有 多 极 值 性 ,或 者 说 非 线性 动力 系统 具有 多 
个 较 稳 定 的 平衡 态 , 这 将 导致 系统 演化 的 多 样 性 。 

人 工 神 经 网 络 中 , 神经 元 处 理 单元 的 类 型 分 为 三 类 : 输入 单元 、 输 出 单元 和 
隐 单 元 。 输 入 单元 接受 外 部 世界 的 数据 ; 输出 单元 实现 系统 处 理 结 果 的 输出 ; 隐 
单元 是 处 于 输入 和 输出 单元 之 间 , 其 输入 输出 都 不 能 由 系统 外 部 观察 的 单元 。 神 
经 元 间 的 连接 权 值 反映 了 单元 间 的 连接 强度 , 学习 到 的 知识 表示 体现 在 网 络 处 理 
单元 的 连接 关系 中 。 神经 元 间 连 结 关 系 或 者 激励 函数 不 同 , 相对 应 的 神经 网 络 也 
不 同 。 人 们 已 经 发 明了 许多 神经 网 络 , 本章 只 选择 介绍 其 中 几 种 。 




















9.2.2 ”前 馈 神经 网 络 


假设 一 个 神经 网 络 由 与 层 组 成 , 每 层 的 输出 是 下 一 层 的 输入 , 每 层 的 节点 之 
间 彼 此 没有 关系 。 数 学 上 , 这 样 的 网 络 表 示 如 下 : 


prr = «(x we?) = s (Wa), t€ {1,2,--,9-1} 


T 
WP = (uu... (2) O = (1 C0. C09. g) 


公式 (9.1) 中 (x)? 表示 第 圭 层 神经 网 络 的 第 了 节点 的 输出 值 ， 也 表示 d, 十 1 维 向 
量 (c) 的 第 了 + 工 个 分 量 , 该 值 是 一 个 实数 值 , 这 里 0 < j < di. WR j= 0, 则 
Vt € {1,2,… ,§ — 1}, (x) = 1. wh) 表示 第 t 十 1 层 神经 网 络 的 第 i 节点 的 偏 置 
fü. 显然 , di =p, ds — c. (a) = (z) (x) = hi(z)。 MR $ =3, 公式 (9.1) 
表示 的 神经 网 络 可 以 用 图 9.1 来 形象 表示 。 公 式 (9.1) 即 为 前 馈 神经 网 络 。 神 经 网 
络 的 复合 层 数 加 1 称 为 神经 网 络 的 深度 。 图 9.1 表示 的 神经 网 络 其 深度 即 为 3 层 ， 
通常 称 为 3 层 神经 网 络 。 

在 前 馈 神经 网 络 的 设计 里 , 函数 SO 总 是 预知 的 。 函数 S() 不 同 , 即 为 不 同 的 
前 馈 神 经 网 络 。 容 易 想到 , 最 简单 的 前 馈 神 经 网 络 应 该 设 S() 是 线性 函数 。 但 是 ， 
如 果 SO 是 线性 函数 , 公式 (9.1) 表示 的 是 线性 感知 器 , 其 分 类 能 力 有 限 , 只 能 
决 线性 分 类 问题 , 对 于 非 线性 问题 无 能 为 力 。 明 斯 基 在 1969 年 已 经 证 明 线 性 感知 


(9.1) 
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器 甚至 不 能 正确 解决 最 简单 的 非 线 性 问题 : 异 或 问题 ， 这 直接 导致 了 神经 网 络 研 
究 历 史上 的 第 一 个 严冬 。 严 格 说 来 , 线性 感知 器 等 同 于 线性 回归 。 

在 实际 应 用 中 取得 了 很 大 成 功 的 前 馈 神经 网 络 , 函数 SS) 一 般 不 是 线性 的 。 
如 果 设 定 Sle) = Cs MAR (9.1) 导出 的 前 馈 神经 网 络 即 为 BP 神经 

十 exp( 一 z) 

网 络 。 

对 于 前 馈 神经 网 络 ， 公 式 (9.1) 中 的 参数 wO, j e (061,2, ,di}, ie 
{1,2,… dj tE (,2,-,5 — 1) 需要 通过 学 习 算法 来 确定 。 


根据 前 面 的 分 析 ， 类 一 致 性 准则 最 小 化 x D(f (a4), hz). 这 里 (ee) = 
(G5) 9, (a)... aO) 由 此 知道 ， 需要 最 小 化 公 \ 式 (9.2)。 




















LA 
73 2; DU (ee) hg) 


-iXXen-ea) (02) 


k=1 i=1 
为 了 最 小 化 目标 函数 (9.2)， 需 要 计算 式 (0.2) 对 待定 参数 WO 的 导数 , t € 
(1,25: 91} NESAS EX OP = (W!)" (2), Be= s Yo) 
(ae))?, HETTAR (9.2) 可 改写 为 式 (9.3)。 


1 N 
= 32 D( f(x), h(zx)) 





k=1 
N 
=k (9.3) 
k=1 
因此 可 以 知道 
aL NOE. 
Pic sane 9.4 
aw rw Ue 
利用 导数 链 式 法 则 可 以 将 Pk 得 出 ,其 公式 为 式 (9.5) 和 式 (9.6)。 





aw) 


Wij 








ds (5) 
OE, R3 OE Orr ) 


(9.5) 
dw!) = alar) dwt 
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NI) ds-i PEN E = 
O(zk)r 三 学 (G- D (a; JOD) > u($-0 O(xx)s 

Bw s=1 Ow? 

ae, \(t+2) deci (t+1) (9.6) 
CEA = S' (WED (xp) €+) ) dow! («o9 k)s 

dw s=1 Ow? 

di (t) 
(ag) *? aw 
= S' (WO (x,) a4) 


Wij 


he, AHER RET PE I EAR YW, VE 2E E k E k (backpropagation 
algorithm, BP 算法 )。 该 算法 是 一 个 迭代 学 习 算 法 ， 沼 被 用 来 训练 多 层 前 馈 神 
经 网 络 。 标 准 误差 逆 传 播 算法 中 ,每 个 样本 输入 都 会 更 新 网 络 权 重 。 更 准确 的 
说 法 是 ， 当 给 定 学 习 率 n 和 样本 zx 之 后 ,标准 误差 逆 传 播 算法 对 于 网 络 权 重 
wt e {1,2,.… ,一 1},i € (,2, dj € {0,1,2,… de} 的 更 新 公式 为 


式 (9.7): 
(9.7) 





特别 地 , 我 们 用 公式 (9.5) 和 公式 (9.6) 来 推演 三 层 前 馈 神经 网 络 使 用 的 梯度 
AR. 此 时 , 5 — 3. S(x) , S'(z) = S(z)(1 — S(x)). 








1+ exp(-z) 


(3) da 
O(rk) S (WL) (ay) Yl) yea) Sure dw? 
=0 





au Bul? 
a 2 a 2 C 2 awh 
= S (WP (109) (1 — SWP (09) > eP T 
sco m (9.8) 


d2 
= (we) (1 — (098) Y EP rids 


s=0 
= (xx) (1 — (E)E) (wn) POs 
OE, CN OE, (ax)? 2 en)? 
dw) ar (x) dw? 2 — (95 Ow? 


=- (fler) - (P) «f^ (1 E - ()9) (ee)? 











(9.9) 
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Ae on o E pac 
bo T ee 99)5 wr wed 
dz (xy) 
= S (WO) (x_)) (1 — S(WP)(x,))) X v (9.10) 
s=1 dus?) 
je 
3 3 2 
= (xp) )@ ( (1— (zx yc Sow o a a 








alz) dw) 
=S (we (xx) y?) js (zx yo 

1 1 

dw) = Ow 0 


) wh? 
dw ^ (911) 





di 
= S (W£9(z,)9) (1 - SQw£9()9)) D Ef 
s=0 


di 
= (rx) — (we)) > (wn) brides 


s=0 


= (rx) (1 — (zx)®) (we) sri 





OE, Cs OE, alzh)g) 
Ou — 2 Ax.) dw 


-X f. (nx) — (9?) ole 


r=1 





= -Ý (Flee) (on) (09 0P) eP (100) e 


d3 
-È ue 0 


r=1 Wri 





(9.12) 


反 向 传播 算法 主要 由 两 个 环节 (激励 传播 、 权重 更 新 ) 反复 循环 迭代 , 直到 网 
络 对 输入 的 响应 达到 预定 的 目标 范围 为 止 。 
算法 9.1 三 层 前 馈 神经 网 络 标准 误差 逆 传 播 算法 
输入 : 数据 集合 (X,U): FIE Ne 
输出 : 连接 权 w, te {1,2,…, 5 一 1},ie {1,2,---,de}, j € {0,1,2,.…., de}。 
和 迭代 过 程 : 
(1) 在 (0,1) 范围 内 初始 化 连接 权 w te {1,2,…, 9—1}, i € {1,2,.…, dt}, j € {0,1,2,.…,d:}。 
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(2) repeat 
(3) for all (£x, f(zx)) € (X,U) do 
(4) 根据 当前 参数 和 公式 (9.1) 计算 zf ,te 2,3, 以 及 Er 


(5) 根据 公式 (9.9) 计算 


aE 
dw 1) 


(7) 根据 公式 (9.7) 更 新 wt e (1,2,- — 1,0 € {1,2,--- de}, j € {0,1,2,... dc) 

(8) end for 

(9) until 达到 停止 条 件 (比如 Jo Be < e). 口 
k=1 


(6) 根据 公式 (9.12) 计算 


标准 误差 逆 传播 算法 (BP) 每 次 根据 一 个 样本 更 新 神经 网 络 的 连接 权重 ， 
会 受到 样本 顺序 的 影响 。 为 了 消除 样本 顺序 对 BP 算法 的 影响 ,可 以 根据 整个 
样本 集 来 更 新 神经 网 络 权重 ， 这 样 就 得 到 累积 误差 逆 传 播 算法 。 当 输入 样本 
SEX Lg, 累积 误 差 道 传播 算法 对 于 网 络 权重 ul),t e (2, ,5 一 1},ie 
(1,2,---,di),j € {0,1,2,… ,de} 的 更 新 公式 为 式 (9.13): 








N 
OE, ðL 
aes w® k (t) 
wi Wij t J Wi; — n 9.13 
2 3 pem Tau) 3w ( ) 


训练 三 层 神 经 网 络 时 间 已 经 很 长 , 增加 神经 网 络 的 深度 不 仅 对 于 训练 时 间 的 
要 求 会 增加 更 多 ,而 且 还 会 存在 其 他 的 工程 难题 。 因 此 在 很 长 的 一 段 时 间 内 ， 人 
们 对 于 增加 神经 网 络 的 深度 并 没有 热情 。 实 际 上 , 三 层 神 经 网 络 已 经 具备 了 很 多 
通用 神经 网 络 特点 。 常 用 的 BP 算法 实际 得 不 到 目标 函数 (9.3) 的 全 局 最 小 值 , 通 
常 是 目标 函数 (9.3) 的 局 部 极 小 值 或 者 鞍点 。 由 于 h(z) 非 线 性 程度 极 高 , 目标 函 
数 (9.3) 具有 的 局 部 极 小 值 或 者 鞍点 极 多 , 因此 , 不 同 的 初始 点 赋值 和 学 习 率 导 致 
最 终 学 到 的 连接 权 值 差别 极 大 。 因 此 ,调试 参数 对 于 神经 网 络 算法 是 一 项 必 备 的 
经 验 技能 。 由 于 神经 网 络 训练 时 间 较 长 , 取得 这 样 的 调 参 经 验 有 时 并 不 容易 。 

既然 神经 网 络 有 这 样 那样 的 毛病 , 为 什么 人 们 对 于 神经 网 络 依然 投入 了 很 大 
的 精力 来 研究 呢 ? 原因 在 于 神经 网 络 具 有 非凡 的 表示 能 力 。 对 于 三 层 神 经 网 络 ， 
文献 [3] 证 明了 在 神经 网 络 领域 著名 的 万 有 逼近 定理 。 


定理 9.1 (万 有 逼近 定理 ) ”如 果 一 个 隐 层 包含 足够 多 神经 元 , 多 层 前 馈 神经 
网 络 能 以 任意 精度 逼近 任意 预定 的 连续 函数 。 

根据 万 有 逼近 定理 , 三 层 神经 网 络 对 于 任何 以 连续 函数 表示 的 学 习 问 题 来 说 
已 经 足够 了 。 这 可 以 解释 , 为 什么 20 世纪 80 年 代 到 90 年 代 流行 的 神经 网 络 大 多 
































第 9 章 ”基于 单 类 的 分 类 算法 : 神经 网 络 129 








是 如 图 9.1 所 示 的 三 层 神经 网 络 。 对 于 这 样 的 三 层 神经 网 络 , 如 果 想 增加 其 表示 
BEJI, 加 大 网 络 的 宽度 即 可 。 

可 惜 的 是 , 在 节点 数 大 致 相同 的 情况 下 ,这 样 不 增加 深度 只 增加 宽度 而 得 来 
的 神经 网 络 表示 能 力 远 远 比 不 上 不 增加 宽度 只 增加 深度 的 神经 网 络 具 有 的 表示 能 
Jj, 其 差别 甚至 是 指数 级 的 四 。 但 是 , 增加 神经 网 络 的 深度 , 会 遭遇 所 谓 的 梯度 消 
2 如 果 梯 度 消 失 , 则 误差 不 能 传播 ; 如 果 梯 度 发 散 则 导致 算法 

能 收敛 。 这 给 增加 神经 网 络 深度 带 来 了 极 大 的 困难 。 因 此 , 虽然 早 在 20 世纪 90 
ee ere ee ee 
散 问 题 , 但 是 由 于 当时 的 神经 网 络 还 有 其 他 的 问题 , 因此 这 一 解决 方案 当时 并 未 
引起 重视 。 在 2010 年 以 前 , 大 多 数 神经 网 络 基本 限定 在 3 层 。 


9.3 ”从 参数 密度 估计 到 受 限 玻 耳 兹 曼 机 


如 果 知 道 一 个 数据 集 (X,U) EAK, 其 中 任意 一 个 对 象 zk 中 的 特征 值 都 是 
二 值 的 , 并 且 任 一 个 对 象 zk 中 只 知道 部 分 特征 值 ， 其 他 部 分 隐藏 未 知 。 在 这 种 情 
景 下 希望 计算 数据 X 的 密度 估计 。 神 经 网 络 对 于 这 种 情形 , 也 给 出 了 一 种 特别 的 
神经 网 络 : 玻 耳 效 曼 机 及 其 变型 受 限 玻 耳 效 曼 机 。 

传统 的 玻 耳 效 曼 机 从 结构 看 是 一 种 两 层 神经 网 络 ， 分 为 可 视 层 和 隐藏 
层 ， 可 视 层 的 神经 元 称 为 可 视 节 点 ， 隐 藏 层 的 神经 元 称 为 隐藏 节点 ， 所 有 节 
点 之 间 都 存在 连接 ,所 有 节点 均 为 二 值 变量 。 所 有 的 可 视 节 点 组 成 一 个 可 视 
向 量 对 应 输入 wv = ((v)1,(v)2,… ,(v)m)， 所 有 的 隐藏 节点 组 成 一 个 隐 含 向 量 
h = ((h)1, (h)2,… , (h)a)« HEI x = (v, h), (z)o = 1。 同时 , 此 时 的 类 认 知 表示 为 
X=0.0={wi:0<igm+d,0<gj< m+d}, 其 中 woo = 0. 

此 时 , 类 相似 性 映射 定义 为 : 


Simx(z, X) = p(x|0) exp (—E(z|9)) = p(v, h|0) (9.14) 











1 
Z(0) 


eh ZO) = Zap CEGO). Etc) = -5 55 5 water 


对 于 可 见 向 量 w 其 与 类 认 知 表示 和 X = 0 的 类 相似 性 函数 可 定义 为 
Simx(v,X) = p(v|@) = jp(v,hl9)。 根据 类 紧 致 性 准则 ,最 佳 的 类 认 知 表示 
h 


X = 0 应 该 最 大 化 目标 函数 (9.15): 





N N N 
In [ [ Simx (v, X) = m J [p(v6) = > > 2 p(vi. hlo) (9.15) 
k=1 k=1 k=1 h 
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可 以 看 出 , 玻 耳 效 曼 机 是 一 个 全 连接 图 , 最 优化 目标 函数 (9.15) 复杂 度 很 高 ， 
难以 解决 实际 问题 。 因 此 , 人 们 提出 了 受 限 玻 耳 效 曼 机 。 在 受 限 玻 耳 效 曼 机 中 , 同 
层 节点 彼此 之 间 不 存在 连接 , 即 可 视 节 点 之 间 无 连接 , 隐藏 节点 之 间 无 连接 , 可 视 
节点 与 隐藏 节点 之 间 有 连接 , 即 受 限 玻 耳 兹 曼 机 是 一 个 二 部 图 。 如 果 令 (v)o = 1 
B (h)o = 1, 此 时 的 类 认 知 表示 为 X=90。0= {wij 0<icmO0<j<d}, E 
H woo = 0. 

据 此 , 受 限 玻 耳 兹 曼 机 的 类 相似 性 映射 定义 为 : 








Simx (x, X) = Simx (v, h, X) = p(v, hl0) Zu exp (—E(v, h|9)) (9.16) 
其 中 Z(0) = 的) E(v, h|0) = zm » wi;(v)i( 
i=0 j=0 
由 于 关 相 似 性 喘 身 为 -个 联合 分 布 , 可 以 对 其 取 边缘 分 布 ， 由 此 可 以 得 到 受 
限 玻 耳 兹 曼 机 的 可 视 向 量 分 布 (9.17)。 


p(v|0) = P» h|0) = 
zi e 


Ezg. 
(È Eo 


E(v, h|0)) 


) 


m 





(h)i (h)a (h)a i=0 j=0 
m d 
pus JEE-Xe(EEe wij(v)i(h) J 
=0 (h)i (h)2 (h)a i=0 j=1 
1 m d m 
Z(9) exp (È wio(v) JEE X [ex (x wis(v)i( m) 
Hl (h)1 (h)2 (h)a j=1 i=0 
ZU exp (See JI Il ex (= wij(v) y) 
i=1 j=1 (h); i=0 
1 m d 
Z(9) exp (Sou ») [= (= wij (v) y) 
1 m d m 
Z exp i n) I 6G + exp e wo 


«i 


十 exp (x Wij 
i=1 


(v)i + ~)) 


(9.17) 
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同 理 , 可 以 得 到 隐 含 向 量 分 布 (9.18)。 


plno) = Y ple, h8) = zr ex (Ele, h) 


i a "m ii (9.18) 
= ZO exp (>: «n, Il ( 十 exp (x: wi;(h)5 + va)) 
j=1 i=1 j=1 
考虑 到 隐 含 向 量 未 知 ,因此 ， 对 于 可 见 向 量 wu， 其 与 类 认 知 表示 和 = 9 的 类 
相似 性 函数 可 以 由 公式 (9.17) 定义 , 即 Simy (v, X) = p(w|9)。 根据 类 紧 致 性 原则 ， 
最 佳 的 类 认 知 表示 X = 0 应 该 最 大 化 目标 函数 (9.19)。 














N N N 
In [[Simx (v, X) = m [[»(v.£) = > > (v. n6) (9.19) 
k=1 k=1 k=1 h 
但 是 目标 函数 (9.19) 相对 于 9 的 梯度 过 于 复杂 , 一 般 不 直接 利用 它 来 最 优化 
目标 函数 (9.19)。 为 了 快速 计算 受 限 玻 耳 兹 曼 机 的 对 数 似 然 梯度 , 发 明了 一 类 称 
为 对 比 散 度 的 近似 算法 9。 有 兴趣 的 读者 可 以 参考 文献 [11]。 
因此 ,根据 以 上 的 分 析 , 严格 意义 上 可 以 知道 玻 耳 效 曼 机 是 一 种 特殊 的 单 类 
密度 估计 模型 , 而且 属于 参数 密度 估计 模型 。 





9.4 深度 学 习 


理论 上 , 神经 网 络 深度 越 大 , 其 表示 能 力 越 高 。 但 是 , 深度 学 习 对 于 计算 能 力 
和 训练 数据 的 规模 提出 了 极 高 的 要 求 。2008 年 以 前 , 计算 机 的 计算 能 力 和 训练 数 
据 规 模 不 具备 大 规模 进行 深度 学 习 研究 的 条 件 。 随 着 云 计 算 、 大 数据 的 普及 , 具 
备 了 研究 深度 学 习 的 外 在 技术 条 件 。 在 2010 年 以 后 ,人 们 通过 采用 新 的 激励 函数 
如 ReLU, 以 及 Dropoutl9、Batch Normalization®) 等 新 训练 方式 , 还 有 特别 设计 
的 新 网 络 结构 Deep Residual Networks?! 等 逐渐 克服 了 梯度 消失 或 者 发 散 问 题 ， 
研究 深度 学 习 的 内 在 技术 条 件 也 日 渐 成 熟 。 这 使 得 化 名 为 深度 学 习 的 神经 网 络 研 
究 进入 了 另 一 个 春天 。 

虽然 如 此 , 深度 学 习 在 理论 上 并 没有 突破 以 往 神 经 网 络 的 理论 架构 。 所 有 对 
于 经 典 神 经 网 络 的 理论 分 析 对 于 深度 学 习 也 依然 成 立 。1986 年 , Rumelhart 等 人 
提出 了 自 编码 器 ,该 模型 可 以 用 来 对 高 维 数据 进行 降 维 目 。2006 4E, Hinton 等 人 
在 Science 上 发 表 了 一 篇 文章 , 该 文章 通过 改进 的 自 编码 器 学 习 算 法 构建 了 一 种 
WE AMSA Fl, Alt, 深度 学 习 的 影响 力 日 渐 增 大 。 所 谓 深度 学 习 , 通常 是 指 神 
经 网 络 结构 层 数 超过 3 层 的 网 络 。 在 文献 中 , 常见 的 有 自 编码 器 、 卷 积 神经 网 络 、 
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循环 神经 网 络 、 长 短 时 记忆 网 络 等 几 种 典型 的 深度 学 习 网 络 。 本 节 只 简单 讨论 自 


9.4.1 Bug 


根据 类 表示 理论 ， 自 编码 器 算法 属于 回归 算法 。 假设 模型 的 已 知 数据 
输入 是 (21,21), (£2, ZT2),… , (ZN,ZN)， 期 望 回 归 函 数 为 (z,z)， 其 实际 学 到 的 
回归 函数 为 (z, F(z)), 其 中 F(x) = S(Ww0n(z)G?) = (s), (aD = 
S (W40), vt € (1,2,..- QW}, a = c, d, RR 1O 的 维 数 , vt € {1,2,:… ,2}, 
di = dor+2-t， 其 中 1 ~ 层 为 编码 层 , 编码 层 每 层 的 节点 数 在 递减 ,7 十 1 ~ 2r 为 
解码 层 , 解码 层 每 层 的 节点 数 在 递增 , BD vt © {1,2,… 7 — 15 di < dipio 
因此 ,对 于 自 编码 器 ,输入 类 认 知 表示 为 (z,z) = (z,T(z)), 输出 类 认 
知 表示 为 (z,(z))。 根 据 类 一 致 性 准则 ,应 最 小 化 的 目标 函数 为 I 一 F| = 


N 
> ller — F(xe)|I?- 
b 


可 以 使 用 BP 算法 也 可 以 选择 其 他 算法 对 于 自 编码 器 的 目标 函数 进行 最 优化 
求解 。 有 兴趣 的 读者 , 可 以 参考 文献 2,11]。 





9.4.2 “ 卷 积 神经 网 络 


卷 积 神经 网 络 与 其 他 的 神经 网 络 有 极 大 的 不 同 。 在 前 馈 神 经 网 络 和 玻 耳 效 曼 
机 等 众多 神经 网 络 模型 中 , 基本 没有 考虑 样本 特征 的 空间 局 部 相关 性 ,考虑 的 是 
样本 特征 的 空间 整体 相关 性 。 卷 积 神经 网 络 的 重要 特点 是 考虑 了 样本 特征 的 空间 
局 部 相关 性 。 一般 说 来 , 标准 卷 积 神经 网 络 的 输入 是 一 幅 图 像 。 一 幅 图 像 中 每 个 


像素 与 其 相 邻 像素 一 般 不 是 独立 关系 , 而 是 依赖 关系 , 与 其 相距 较 远 的 像素 点 几 
乎 是 独立 关系 。 考 虑 到 这 一 点 , 卷 积 神经 网 络 借鉴 感受 野 的 研究 成 果 , 引入 了 卷 


积 层 、 下 采样 层 、 全 连接 层 , 其 中 卷 积 层 的 隐 层 节点 是 由 前 一 层 神经 网 络 的 节点 
卷 积 之 后 复合 ReLu 等 激活 函数 得 到 ,下 采样 层 的 隐 层 节点 是 由 前 一 层 神经 网 络 
的 节点 经 过 下 采样 得 到 。 因 此 , 最 简单 的 卷 积 神经 网 络 也 需要 5 层 : 输入 层 、 卷 积 
层 、 下 采样 层 、 全 连接 层 、 输 出 层 。 更 复杂 的 卷 积 神经 网 络 可 能 包含 多 个 卷 积 层 、 
下 采样 层 等 。 卷 积 神经 网 络 相 对 于 同等 深度 的 前 馈 神经 网 络 的 参数 要 少 很 多 , 这 
是 因为 卷 积 神经 网 络 放弃 了 样本 特征 的 空间 整体 相关 性 , 而 使 得 网 络 连接 大 幅 降 
AG, 同时 , 卷 积 神经 网 络 对 于 卷 积 核 也 经 常 采用 权重 共享 技术 , 这 进一步 降低 了 
卷 积 神经 网 络 的 参数 规模 。 

由 于 大 幅 降低 了 网 络 参 数 规模 ， 同 时 采用 了 新 型 的 激活 函数 ， 深 度 卷 积 神经 
网 络 在 工程 上 解决 了 梯度 消失 问题 之 后 , 在 具备 大 数据 的 有 监督 学 习 问 题 上 取得 
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了 目前 其 他 学 习 算 法 无 法 媲美 的 成 绩 , 特别 是 在 图 像 识 别 领域 。 因 此 ， 卷 积 神经 
网 络 成 为 深度 学 习 中 最 基本 的 模型 之 一 , 受到 极 大 关注 。 目 前 关于 卷 积 神经 网 络 
的 文章 极 多 , 但是， 其 调 参 问题 对 于 使 用 者 是 一 个 大 问题 ， 有 兴趣 的 读者 可 以 自 
行 研读 。 





wt 3€ 


感知 器 算法 可 能 是 最 早 的 神经 网 络 算法 。 该 算法 显然 属于 典型 的 白 箱 算法 ， 
但 是 其 表示 能 力 有 限 , 连 异 或 问题 也 解决 不 了 。 为 了 解决 异 或 问题 , 主流 的 神经 
网 络 技术 放弃 了 解释 性 , 在 黑箱 算法 的 道路 上 越 走 越 远 。 实际 上 , 机 器 学 习 算 法 
对 于 普通 人 来 说 , 可 粗 分 为 两 类 : 一 类 是 傻瓜 型 学 习 算 法 , 即 只 要 输入 一 定 , 任何 
人 都 可 得 到 同样 的 结果 ,如 主 成 分 分 析 等 算法 ; 另 一 类 是 专家 型 学 习 算法 ,即使 
输入 相同 , 不 同人 由 于 参数 设置 不 同 会 得 到 大 不 相同 的 结果 。 显 然 , 神经 网 络 学 
习 算 法 是 典型 的 专家 型 学 习 算 法 。 

广 而 言 之 , 机 器 学 习 有 两 个 基本 任务 。 一 个 任务 是 试图 发 现 输入 输出 之 间 的 
因果 关系 , 其 主要 功用 是 解释 , 最 终 目 的 是 控制 , 即 一 旦 发 生 问 题 , 必须 找 出 问题 
发 生 的 原因 , 这样 就 可 以 通过 控制 学 习 算法 输入 使 得 输出 满足 需要 。 解 决 此 类 任 
务 的 学 习 算法 是 白 箱 算法 , 要 求解 释 能 力 强 。 另 一 个 任务 是 力图 发 现 输入 输出 的 
相关 关系 , 其 主要 功用 是 预测 , 最 终 目的 是 验证 , 即 一 旦 做 出 判断 , 就 可 以 根据 外 
界 反应 判断 预测 是 否 准确 , 但 是 出 现 错误 之 后 ,并 不 要 求 根据 输入 来 追踪 错误 发 
生 的 原因 。 解决 此 类 任务 的 典型 学 习 算 法 是 黑箱 算法 , 不 需要 解释 能 力 。 现 实生 
活 中 这 两 类 任务 都 是 存在 的 。 第 一 类 任务 , 如 各 种 高 风险 任务 , 包括 无 人 驾驶 CK 
车 、 飞 机 、 汽车 等 )、 医疗 手术 等 , 一 旦 发 生 错 误 , 由 于 成 本 巨大 , 必须 能 够 分 析出 
发 生 错 误 的 原因 ， 以 避免 类 似 错误 再 次 发 生 。 完 成 这 类 任务 , 不 但 需要 提高 完 
任务 的 性 能 , 更 重要 的 是 能 够 发 现 输入 输出 之 间 的 因果 关系 , 一 旦 发 生 错误 , 能 
追踪 学 习 算法 发 生 错 误 的 原因 ， 显然 适宜 解决 此 类 问题 的 学 习 算 法 是 白 箱 算法 。 
第 二 类 任务 , 如 各 种 低 风 险 甚 至 无 风险 性 任务 , 包括 搜索 引擎 、 各 种 棋牌 游戏 等 ， 
显然 这 类 任务 即使 发 生 错 误 , 后 果 也 不 严重 , 成 本 可 以 承担 , 因此 , 重要 的 是 提高 
其 性 能 , 特别 是 预测 能 力 , 并 不 要 求 算法 去 解释 错误 为 什么 会 发 生 。 

显然 , 对 于 一 个 具体 的 学 习 任务 , 一 旦 白 箱 算法 的 性 能 超过 黑箱 算法 , 黑箱 
算法 就 再 也 不 会 是 完成 此 类 任务 的 优先 考虑 对 象 。 但 是 , 许多 学 习 任 务 ， 由 于 有 具 
有 极 高 的 复杂 性 , 难以 设计 一 个 性 能 满足 需要 的 白 箱 算法 , 黑箱 算法 由 于 放弃 了 
解释 能 力 的 约束 而 可 能 在 性 能 上 有 较 大 优势 。 如 今 的 深度 学 习 其 表示 能 力 已 经 十 
分 强大 ,2015 年 卷 积 神经 网 络 已 经 达到 152 层 外 ,迄今 为 止 没 有 一 个 白 箱 的 算法 
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其 表示 能 力 可 以 与 现今 的 深度 学 习 相 媲美 。 故 可 以 预测 ， 深 度 学 习 在 不 需要 发 现 





因果 关系 的 学 习 任务 上 在 可 见 的 未 来 不 再 有 被 奉 代 的 可 能 。 


另外 需要 指出 的 是 ,相关 性 的 挖掘 是 目前 大 数据 面临 的 典型 任务 。 甚 至 有 人 


认为 , 在 大 数据 时 代 , 数据 相关 性 的 重要 程度 远 超 数据 因果 性 。 由 此 可 知 , 相关 性 
任务 在 大 数据 时 代 应 用 广泛 。 当 前 深度 学 习 的 快速 发 展 和 应 用 领域 的 日 渐 扩大 ， 


Mt 





| 面 证 实 了 这 一 点 。 当 然 ， 这 并 不 意味 着 不 需要 研究 数据 因果 性 ,更 不 意味 着 





数据 因果 性 的 消失 。 


= 
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5J 题 
. 试 证 明 径 向 基 神 经 网 络 属于 基于 回归 的 分 类 模型 。 
. 试 查找 文献 中 的 Elman 网 络 , 并 证 明 Elman 网 络 属于 基于 回归 的 分 类 模型 。 
. 试 推导 用 于 径 向 基 神 经 网 络 的 BP 算法 。 
. 试 推导 用 于 Elman 网 络 的 BP 算法 。 
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98102 K 近邻 分 类 模型 


不 知 其 子 视 其 父 ， 不知 其 人 视 其 友 ， 不知 其 君 观 其 所 使 不知 其 地 
视 其 草木 。 故 日 与 善人 居 ， 如 入 芝兰 之 室 ， 久 而 不 闻 其 香 ， 即 与 之 化 
烽 。 与 不 善人 居 ， 如 入 鲍鱼 之 娃 ， 久 而 不 闻 其 臭 ， 亦 与 之 化 余 。 丹 之 所 
藏 者 赤 ,， 漆 之 所 藏 者 黑 ， 是 以 君子 必 慎 其 所 与 处 者 而。 

一 一 《孔子 家 语 。 KAY 


第 9 章 介 绍 的 方法 ， 是 把 分 类 问题 转化 为 回归 问题 进行 求解 。 但是, 随 着 分 
类 问题 的 复杂 化 ,要 提高 学 习 算法 的 性 能 , 学 习 到 的 回归 函数 也 随 之 复杂 化 。 在 
很 多 时 候 , 学 习 到 的 回归 函数 由 于 形式 过 于 复杂 而 不 能 直接 输出 , 即 学 习 到 的 回 
归 函 数 对 于 使 用 者 来 说 是 不 可 见 的 ,因而 也 不 能 被 理解 ， 这 就 导致 该 类 学 习 方 法 
的 黑箱 化 。 更 清楚 的 说 法 是 ， 随 着 回归 函数 复杂 性 的 增加 ， 其 解释 性 迅速 下 降 以 
至 于 缺失 。 这 是 把 学 习 问 题 看 做 基于 经 验 数据 的 函数 估 值 问题 的 固有 缺陷 : 回归 
函数 简单 时 , 解释 性 好 但 泛 化 性 能 可 能 不 好 ; 回归 函数 复杂 时 , 泛 化 性 能 会 好 但 
解释 性 迅速 变 差 甚至 消失 。 在 很 多 时 候 , 解释 性 与 泛 化 性 能 对 于 回归 函数 的 设计 
是 一 个 二 难 问题 。 深度 学 习 的 成 功 更 加 剧 了 这 个 二 难 问题 的 解决 难度 。 

然而 ， 对 于 很 多 分 类 问题 ， 人们 希望 分 类 算法 既 能 满足 泛 化 性 能 的 要 求 , 也 
能 够 满足 解释 性 的 要 求 。 这 实际 上 要 求 分 类 方法 的 解释 能 力 优先 , 即 必 须 能 被 使 
用 者 理解 。 换 句 话说, 就 是 需要 设计 白 箱 的 分 类 算法 。 在 文献 中 , 很 多 分 类 算法 有 具 
有 很 强 的 解释 能 力 , 这 些 算法 一 般 没有 把 分 类 方法 视 为 回归 问题 。 

本 章 开 始 研 究 解释 能 力 强 的 分 类 算法 。 将 按照 从 简单 到 复杂 的 顺序 介绍 这 些 
算法 。 WAR. WRY = X, 就 可 以 在 分 类 的 时 候 忽 略 掉 站。 在 这 种 假设 下 ， 由 于 
归 类 公理 成 立 , 分 类 问题 可 以 简化 表示 为 (X,U,Y,Simy), 其 中 (X,U) 为 训练 输 
A, (Y, Simy) 为 学 习 到 的 分 类 器 。 分 类 算法 是 用 来 计算 (Y,Simy), 如 果 该 算法 
也 能 输出 (Y, Simy), 这 个 算法 可 以 认为 解释 能 力 强 , 是 白 箱 算法 。 

最 简单 的 白 箱 算法 应 该 满足 什么 性 质 呢 ? 如 果 (Y, Simy) 不 学 习 就 能 够 得 到 
显然 是 最 简单 的 分 类 算法 ,其 解释 能 力也 最 强 。 由 于 类 的 外 延 表示 本 来 就 知道 ， 
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如 果 直 接 认 为 类 的 认 知 表示 也 就 是 其 外 延 表 示 ， 这 样 ， 当 然 可 以 不 用 学 习 就 得 到 
类 的 认 知 表示 。 显 然 , 这 是 最 简单 的 学 习 情 形 。 更 明白 的 说 法 , UE Vi, Y; = Xi。 
上 面 的 分 析 就 是 K 近邻 (K-nearest neighbor, K-NN) 算法 的 基本 思想 , 即 类 的 
认 知 表示 就 是 其 外 延 表 示 。 由 于 每 个 类 由 其 各 自 的 外 延 表示 定义 , 因此 判断 一 个 
对 象 属于 哪 一 个 类 的 最 自然 做 法 , 就 是 看 看 其 近邻 的 样本 类 别 ， 即 所 谓 的 “不 知 
其 人 视 其 友 ”。 因此 需要 定义 类 相似 度 映 射 。 不 同 的 类 相似 映射 ， 就 构成 了 不 同 的 
近邻 方法 。K 近邻 方法 需要 的 参数 不 多 , 其 类 认 知 表示 不 需要 计算 , 因此 是 最 
简单 的 不 基于 回归 的 分 类 算法 。 

本 章 首先 叙述 K 近邻 算法 ,然后 介绍 KK 近邻 算法 的 改进 形式 一 一 距离 加 权 
最 近邻 算法 ,接着 讨论 如 何 降低 I 近邻 算法 的 时 间 复 杂 度 ，10.4 节 说 明 如 何 利用 
kd 树 实现 KK 近邻 算法 , 最 后 探讨 K 近邻 的 参数 问题 。 





10.1 K 近邻 算 法 
10.1.1 K 近邻 算法 问题 表示 


根据 前 面 的 分 析 可 以 知道 , 对 于 天 近邻 算法 来 说 , 数据 训练 集 为 (X,U), X = 
Y， 每 个 类 的 类 认 知 表示 为 属于 该 类 的 所 有 样本 集合 ， 即 vi Y, = Xs HP 
Xi = (xxu = 1}, U 是 一 个 硬 划 分 。 因此, 需要 具体 定义 何谓 近邻 。 显然 , 近邻 
的 定义 严重 依赖 对 象 的 特征 描述 。 不 同 的 特征 描述 , 其 近邻 的 定义 方式 不 同 ， 从 
而 导出 的 近邻 算法 也 不 同 。 在 本 节 中 , 假定 输入 对 象 可 以 用 RP 空间 中 的 点 来 
描述 , 即 每 个 对 象 表示 为 p 维特 征 向 量 , 则 类 相似 性 函数 可 以 定义 为 : 





_ NG 


Simy (y, Yi) = Simy (x, Yi) K 


(10.1) 
其 中 , Ni(z) = {xiri € Xi Azı € NF (z)), NE (x) 是 z 所 有 近邻 的 集合 。 

根据 样本 可 分 性 公理 ， 每 个 对 象 总 有 一 个 与 其 最 相似 的 类 。 而 根据 归 类 等 价 
公理 ， 测试 对 象 所 属 的 类 是 与 其 最 相似 的 类 。 据 此 , 可知 在 K 近邻 算法 中 , 如果 
arg max, Simy (z, Y) = argmax, MAO — j, 则 样本 被 认为 属于 第 ;类 。 显 
然 , K 近邻 算法 遵循 归 类 等 价 公 理 。 一 般 情况 下 , KK 近邻 算法 的 分 类 结果 满足 可 
分 性 公理 。 类 表示 唯一 公理 对 于 分 类 算法 通常 不 成 立 , K 近邻 算法 也 是 如 此 。 但 
是 ,正如 前 面 指出 的 ,K 近邻 算法 也 要 使 得 类 表示 唯一 公理 不 成 立 的 情形 尽 可 能 
地 少 。 
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10.1.2 K 近邻 分 类 算法 


在 KK 近邻 算法 中 , 训练 集 表示 为 : X = {ziyza aN} U = [uiklcxw， 其 
中 zi 是 p 维 空间 RP 中 的 数据 对 象 ， wi 是 样本 zk 属于 第 i 类 的 隶属 度 , 其 取 值 
非 零 即 1, 同时 U 是 硬 划 分 。 在 以 上 表示 下 , K 近邻 算法 可 以 描述 如 下 : 
算法 10.1 K 近邻 算法 
输入 : 训练 数据 集 以 及 测试 对 象 zr。 
输出 : 测试 对 象 er 所 属 类 别 j € {1,2,--- ,c}。 
DR: 
(1) 根据 给 定 的 距离 度量 方式 , 在 训练 集 X 中 , 找到 与 测试 对 象 er 最 邻近 的 K 个 对 象 的 集合 
NK (ar), 对 天 个 近邻 统计 属于 每 个 类 别 的 情况 Ni(zr)。 
(2) 根据 {Ni(zzr)} 和 1 在 训练 集中 的 类 别 信息 来 决定 测试 对 象 vr 的 类 别 à, 其 具体 条 件 为 
i = arg max; Simy (rr, Yj) = arg max; P 回 
K = 1 是 一 种 特殊 的 情形 , 称 为 最 近邻 算法 , 对 测试 对 象 rr， 把 与 之 最 接近 
的 训练 对 象 的 类 别 赋 给 cp. WRK 1. K 近邻 算法 把 前 KK 个 与 之 最 接近 的 训 
练 对 象 中 出 现 频率 最 高 的 类 别 赋 给 op, 这 种 方式 类 似 于 “多 数 表 决 ”。 图 10.1 给 
出 了 一 种 简单 情况 下 的 近邻 算法 , 图 中 的 点 有 正 例 和 负 例 两 种 ,分别 用 “十 ” 
和 “一 ”表示 。 对 于 测试 对 象 p. WRK = 1. 与 zz 最 接近 的 实例 为 正 例 , NU 
被 决定 为 正 例 ; WR K = 5. 由 于 zz 的 5 个 最 近邻 中 有 3 个 负 例 , 2 NEB, H 
以 zr 被 决定 为 负 例 。K 近邻 算法 不 用 学 习 类 表示 (或 者 类 表示 包含 的 参数 ), 仅 
在 测试 时 计算 查询 对 象 所 需要 的 近邻 样本 分 类 信息 , 但 是 依然 可 以 提前 给 出 每 个 
可 能 对 象 的 分 类 情况 。 图 10.2 给 出 了 最 近邻 算法 在 整个 实例 空间 上 导致 的 决策 面 





十 
图 10.1 K 近邻 算法 图 10.2 最 近邻 算法 决策 面 
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10.1.3 K 近邻 分 类 算法 的 理论 错误 率 

当 训 练 样本 足够 多 时 , 最 近邻 的 决策 能 够 取得 较 好 的 效果 。 对 于 最 近邻 的 错 
TRE, 1967 年 Cover 和 Hart 给 予 了 理论 证 明 钙 。 下 面 简 述 相关 的 理论 结果 。 

d ON 个 样本 下 最 近邻 的 平均 错误 率 为 Pule) ER r RERBA ze 
{Zz1, Z2, SEN) 平均 错误 率 可 以 写成 


Py(e) = {| Py(e|x, x')p(x'|x)dx'p(x)dx (10.2) 
Py(elx, 2") 2 1— V Plilz)P(ilz’) (10.3) 
i=1 





4 N 一 oo IM, Py(e) 的 极限 P = limw_,w Py(e), 则 可 证 明 存在 


P*<P<P* (2 = P) (10.4) 


其 中 P* 为 贝 叶 斯 错误 率 , 也 就 是 理论 上 最 优 的 分 类 错误 率 , c 为 类 别 个 数 ， 尸 为 
最 近邻 算法 的 渐进 错误 率 。 

图 10.3 显示 最 近邻 算法 的 渐 近 错误 率 总 会 落 到 图 中 的 阴影 区 域 中 。 这 个 结论 
表明 , 最 近邻 的 渐 近 错误 率 最 坏 不 会 超出 两 倍 的 贝 叶 斯 错误 率 , 最 好 时 有 可 能 接 
近 或 者 到 达 贝 叶 斯 错误 率 。 这 个 结论 的 条 件 是 样本 数目 趋 近 于 无 穷 多 , 也 就 是 在 
证 明 的 过 程 中 , 使 用 了 p(z'|z) 趋 近 于 s 为 中 心 5 函数, 即 z 的 最 近邻 与 x 充分 接 
近 。 当 样本 数目 有 限时 , 最 近邻 算法 通常 也 可 以 得 到 不 错 的 结果 , 但 是 不 一 定 满 
足 式 (10.2)。 如 果 样本 过 少 , 样本 的 分 布 可 能 有 很 大 的 偶然 性 , 不 一 定 能 很 好 地 代 
表 数 据 内 在 的 分 布 情况 , 会 影响 最 近邻 算法 的 性 能 。 

K 近邻 算法 的 渐 近 错误 率 理论 分 析 更 复杂 一 些 , 基本 结论 是 K 近邻 算法 的 
渐 近 错误 率 仍然 满足 式 (10.2) 的 上 下 界 关 系 , 但 是 随 着 K 的 增加 ， 上 界 将 逐渐 降 
E 当 K 趋 近 于 无 穷 大 时 ， 上 界 和 下 界 合 到 了 一 起 , K 近邻 算法 就 达到 了 贝 叶 斯 





图 10.3 ”最 近邻 算法 渐 近 错误 率 的 上 下 界 与 贝 叶 斯 错误 率 的 关系 
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错误 率 , 如 图 10.4 所 示 。 与 最 近邻 算法 相同 ,这 个 关系 也 是 在 样本 无 穷 多 的 前 提 
下 得 到 的 。 





图 10.4 K 近邻 算法 渐 近 错误 率 的 上 下 界 与 贝 叶 斯 错误 率 的 关系 


10.2 ”距离 加 权 最 近邻 算法 


对 象 间 的 距离 以 一 种 对 偶 的 方式 反映 了 两 个 对 象 之 间 的 相似 程度 ， 即 距离 大 
则 相似 性 小 , 距离 小 则 相似 性 大 。 众 所 周知 , 距离 依赖 于 对 象 的 特征 空间 , 不 同 的 
特征 空间 , 距离 的 定义 也 不 同 , 有 兴趣 的 读者 可 以 参考 文献 5]。 如 果 特 征 空间 是 
VOR 间 ， 一 般 使 用 欧 氏 距离 (Euclidean distance) 度量 , 但 也 可 以 用 其 他 距离 度 

， 如 曼哈顿 距离 (Manhattan distance) Bl Ly 距离 、 切 比 雪夫 距离 (Chebyshev 
dian 即 Lo 距离 等 , 本章 如 无 特殊 说 明 对 欧 氏 空间 一 律 采用 欧 氏 距离 。 

在 经 典 的 KK 近邻 算法 中 , 每 个 近邻 对 最 后 的 决策 作用 都 一 样 。 显然 , 这 与 人 
类 的 直观 并 不 一 致 。 古 人 说 ,远亲 不 如 近邻 , 又 说 , 兔子 不 吃 窜 边 草 。 可见, 距离 
不 同 的 近邻 对 于 最 后 的 决策 影响 不 同 。 因 此 ,如果 考 虑 近邻 的 时 候 ， 也 考虑 各 个 
近邻 的 不 同 距离 ,就 可 以 设计 距离 加 权 K 近邻 算法 。 显 然 , 这 时 算法 中 的 KK 肯定 
大 于 1, 否则 没有 意义 。 总 之 , 距离 加 权 K 近邻 算法 是 K 近邻 算法 的 一 种 改进 形 
式 , 它 对 IC 个 近邻 的 贡献 进行 加 权 , 距离 查询 点 较 近 的 点 的 权 值 较 大 , 距离 较 远 
的 点 的 权 值 较 小 。 此 时 对 象 与 类 到 的 相似 性 计算 中 不 单 考虑 通过 近邻 的 个 数 ,也 
要 考虑 K 个 近邻 的 临近 程度 。 因 此 , 距离 加 权 K 近邻 算法 中 的 类 相似 性 映射 为 
TA: 








[Wi(z)] 
K 


Simy (z, Y.) = (10.5) 


其 中 , Wiz) = E w Ni(z) = Xon NF (a) 表示 属于 第 i 类 近邻 的 集 
rrKENi(z) 

f, NE (x) 是 所 有 近邻 的 集合 ,那么 zf 表示 在 训练 集中 属于 第 i 类 且 与 x 近邻 

的 样本 , wae 表示 aff 的 权重 , 它 与 该 点 到 测试 对 象 的 距离 成 反比 , 一 般 有 如 下 
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两 种 选择 : 
1 

xm 10.6 
+ d(a,aky" ii 
Wak = exp (-a (x, 2 )’) (10.7) 

通常 ,可 以 对 得 到 的 war 进行 归 一 化 处 理 : 

Wyk 
ok = =m (10.8) 

© D, wep 

aK ENi(z) 
i€ E, 对 于 距离 加 权 最 近邻 算法 , K 值 可 以 扩展 到 全 训练 集 ， 这 种 方法 称 
Men (global)。 对 于 那些 距离 比较 远 的 点 ,ozx 近似 为 0, 但 是 考虑 所 有 实例 


会 导 臻 算法 运行 缓慢 , 所 以 一 般 不 采用 。 


10.3 K 近邻 算法 加 速 策略 


假设 训练 集 匀 包含 NN 个 p 维 对 象 ,对 于 测试 对 象 z, 采用 IC 近邻 算法 判断 
2 的 类 别 , 需要 计算 z 与 训练 集中 所 有 对 象 的 距离 ,时 间 复 杂 度 为 O(pN), N 
很 大 的 时 候 , 计算 复杂 度 会 非常 高 。 为 了 降低 天 近邻 算法 的 时 间 复 杂 度 ， 下 面 介 
绍 3 种 常用 策略 。 


1. 计算 部 分 距离 


该 方法 的 思想 是 在 计算 实例 的 距离 d(a,5) 时 , 只 采用 p 个 维度 中 的 一 个 子 集 
7。 对 于 欧 氏 距离 来 说 , 实例 a 和 ?之 间 的 > 维 部 分 距离 为 : 


1 

r 2 

d, (a,b) = (= (a; — n’) (10.9) 

il 

x (10.9) 是 一 个 关于 的 递增 函数 。 假 设 已 找到 当前 最 近 的 大 个 近邻 , 距离 

由 小 到 大 分 别 表示 为 : di (xr), dy (xr),- di (zr); 当 继 续 遍 历 训 练 集 时 ， 如果 

ar 到 该 训练 对 象 的 7 维 部 分 距离 已 经 大 于 dy (xr), 那么 与 该 对 象 的 比较 就 可 以 

停止 了 。 不 妨 假设 在 整体 距离 计算 时 , 平均 使 用 了 7 个 维度 , 那么 计算 复杂 度 就 

变 为 O (rN), 这 样 就 减少 了 相当 一 部 分 的 计算 量 , 减少 的 量 与 7 的 大 小 有 关 。 如 

果 优 先 计算 方差 较 大 的 维度 ， 则 可 以 减 小 7 值 的 大 小 , 进一步 降低 计算 量 , 这 是 
因为 方差 较 大 的 维度 是 反映 两 点 之 间 真 实 距离 的 主要 因素 。 
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2. 训练 对 象 剪 辑 


对 于 K 近邻 算法 , 类 认 知 表示 就 是 由 已 经 标定 的 样本 组 成 的 集合 , 即 类 的 外 
SERA. 注意 到 类 的 外 延 表示 中 , 不 是 所 有 的 样本 对 于 分 类 都 有 贡献 。 因 此 ， 可 
以 将 那些 对 于 分 类 没有 贡献 的 样本 从 类 的 外 延 表示 中 删除 , 这 就 是 所 谓 的 训练 对 
象 剪辑 方法 。 该 方法 的 主要 思想 是 消去 那些 对 判定 测试 对 象 类 别 “ 无 用 ”的 训练 
对 象 以 降低 计算 复杂 度 。 在 最 近邻 算法 中 ,一 个 对 象 被 同类 对 象 “包围 ”， 此 时 
若 某 测试 对 象 的 最 近邻 为 a, 那么 去 掉 a 之 后 , 该 测试 对 象 的 最 近邻 也 一 定 是 与 
a 同类 别 的 训练 对 象 , 所 以 去 掉 a 并 不 影响 判定 结果 , 称 a 为 “无 用 ”对 象 。 如 
图 10.5 Bras, 图 中 的 实例 都 为 “无 用 ”实例 。 另外 需要 注意 的 是 , 该 方法 只 适用 于 
最 近邻 算法 ,对 于 普通 的 天 (K > 1) 近邻 算法 并 不 适用 。 

















| 无 用 的 样本 








图 10.5 K 近邻 算法 中 的 “无 用 ”实例 


3. 预 建立 结构 


该 方法 是 对 训练 集 进行 预 处 理 , 一 般 情况 下 , 根据 训练 实例 (或 实例 某 维 度 ) 
之 间 的 相对 距离 将 训练 集 组 织 成 某 种 形式 的 搜索 树 ， 寻找 测试 实例 的 近邻 的 时 
dk, 可 以 根据 搜索 树 的 结构 ， 只 访问 搜索 树 的 某 些 部 分 ， 从 而 降低 计算 量 。 kd Pd 
是 一 种 最 常用 的 预 建立 结构 ，10.4 节 中 将 详细 介绍 如 何 建立 kd 树 以 及 利用 ka 树 
做 近邻 搜索 。 


10.4 kd 树 


KK 近邻 算法 在 每 输入 一 个 新 的 分 类 对 象 时 , 对 整个 数据 集 进行 扫描 , 计算 KK 
个 最 邻近 点 。 该 方法 虽然 简单 , 易 实 现 , 但 是 当 数 据 集 很 大 的 时 候 , 计算 将 耗费 非 
常 多 的 时 间 , 因此 为 了 提高 K 近邻 算法 的 效率 ， 人们 利用 kd 树 将 训练 数据 存储 
起 来 , 这 样 可 以 大 幅度 减少 算法 的 运算 量 。 

kd 树 是 一 棵 二 叉 树 ,对 于 p 维 空间 中 的 数据 集 , T = {(a1,u1), (v2, wu2),…， 
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Gamma = (2 四 ,zx 如 ,… ,z 四 )， 构造 hd 树 的 过 程 就 是 不 断 地 对 第 1 
(1 = {1,2,… ,p}) 维 取 中 位 数 的 过 程 ， 中 位 数 对 应 的 对 象 就 是 二 叉 树 中 的 节 
点 。 具体 方法 如 下 : 

(1) 查看 全 数据 集 对 象 GP =1,2,---,p), 找到 中 位 数 对 应 的 对 象 
aO, Hc 保存 到 kd 树 的 根 节点 。 整个 数据 集 依据 中 位 数 被 分 成 2 个 子 区 域 : 
数据 各 中 所 有 20 < 0 ERE RIAL. 将 成 为 kd 树 的 左 子 树 ; 数据 
TA cP > 2 的 对 象 点 组 成 的 集合 R,, ,将 成 为 树 中 的 右 子 树 。 

令 t=1, 在 上 一 步 形成 的 各 个 子 区 域 中 做 如 下 操作 : 

(2) 4 j = t(mod p) +1, 在 该 区 域 寻找 cP WA cP AG zz 存储 到 该 区 
域 形成 子 树 的 根 节点 ,由 zy 分 割 形 成 新 的 两 个 子 区 域 。 

(3) 令 t= 奸 1; 形成 的 子 区 域 都 为 空 , 算法 停止 , 输出 kd 树 ; 否则 , 返回 (2)。 

上 述 kd 树 的 构建 过 程 ， 对 应 于 空间 分 割 ， 切 割 线 垂直 于 坐标 抽 O, 切割 点 
为 中 位 数 对 应 的 对 象 点 zk。 

得 到 kd 树 以 后 , 可 以 利用 kd 树 对 训练 集 进行 扫描 , 快速 找到 近邻 点 。 下 面 
以 最 近邻 算法 为 例 讲解 搜索 ka 树 的 过 程 。 设 查询 点 为 s， 寻找 查 询 点 s 所 在 的 区 
域 。 从 kd 树 的 根 节点 开始 , j = 1: 

(1) 判断 sG) 与 当前 节点 ce? 的 大 小 关系 , WMR sO < zx 四， 则 查询 该 节点 左 
子 树 的 根 节点 ; 否则 查询 右 子 树 的 根 节点 。 & j= (j +1) mod m; 

(2) 车 该 节点 为 叶子 节点 , 标记 为 a, 表示 当前 找到 的 最 近邻 ; 否则 返回 上 
一 步 。 

以 查询 点 s 为 圆心 ,sa 的 长 度 为 半径 得 到 一 个 p 维 的 “球体 ” 记 当 前 节点 的 
父 节点 为 g, 判断 当前 节点 的 兄弟 节点 所 在 的 区 域 是 否 与 该 球体 相交 ， 如 果 相 交 ， 
对 兄弟 节点 所 在 的 子 树 进行 近邻 搜索 , 记 当 前 所 找到 的 最 近邻 节点 为 a; 上 移 一 
层 至 gq 节点, 判断 gq 节点 是 否 比 a 点 更 接近 s, HEI, 使 4 = q Hq 节点 为 根 
节点 , 算法 结束 , 输出 最 近邻 节点 a» 否则 返回 (2)。 





10.5 K 近邻 算法 中 的 参数 问题 


从 上 文 的 叙述 来 看 , K 近邻 算法 存在 一 个 参数 天 , K 值 的 选取 是 影响 天 近 
邻 算 法 效果 的 一 个 主要 因素 , 需要 注意 的 是 , 在 KK 值 的 选择 上 , 不 能 使 用 天 个 近 
邻 与 查询 对 象 的 距离 平方 和 来 评估 天 值 的 好 坏 , 这 是 因为 当天 = 1 的 时 候 , 距 
离 的 平方 和 总 是 最 小 的 , 所 以 算法 总 是 趋向 于 选择 天 = 1, 而 当天 = 1 的 时 候 ， 
算法 极 易 受 到 噪声 点 和 离 群 点 的 影响 。 一 般 情 况 下 , K 值 如 果 选 取 过 小 , 就 容易 
受到 噪声 点 的 影响 , 增 大 估计 误差 ; 而 如 果 K 值 选取 过 大 , 近邻 中 会 出 现 很 多 其 
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他 类 中 的 点 , 会 增 大 近似 误差 。 因此, 通常 采用 交叉 验证 的 方法 来 学 习 最 优 K 值 ， 
具体 请 参考 文献 加. 


延伸 阅读 


Cover 和 Hart 已 经 证 明 , K 近邻 算法 具有 优异 的 理论 性 质 古 , 是 一 种 基本 的 
分 类 方法 。 通 常情 况 下 , K 近邻 算法 能 够 在 低 维 空间 中 取得 不 错 的 效果 。 但 是 在 
高 维 空间 中 , 由 于 维度 的 增 大 , 数据 集 变 得 稀疏 ， 导 致 不 存在 紧密 的 近邻 , 因此 近 
邻 算 法 就 达 不 到 理想 的 效果 ,这 被 称 为 KK 近邻 算法 的 “ 维 数 灾难 ”。 更 加 详细 的 
论述 请 参见 文献 [3]。 

K 近邻 算法 是 最 广泛 使 用 的 非 参 数 分 类 方法 。 在 文献 [2,4] 中 已 经 证 明 : 在 
大 样本 条 件 (N 一 oc) F, 最 近邻 算法 (K = 1) 的 风险 不 超过 贝 叶 斯 风险 的 两 倍 ; 
iij? K — co 时 , 开 近 邻 算法 的 风险 逼近 于 贝 叶 斯 风险 。 这 也 是 天 近邻 算法 成 功 
地 应 用 在 各 类 实践 中 的 理论 保证 。 

在 传统 的 机 器 学 习 中 , 将 分 类 算法 分 为 懒惰 学 习 (lazy learning) 和 急切 学 
习 Ceager learning)。 懒 惰 学 习 是 指 在 学 习 阶 段 仅仅 将 样本 保存 起 来 , 不 需要 学 习 
类 认 知 表示 , 待 收 到 测试 样本 后 再 进行 分 类 。 反 之 , 在 学 习 阶段 需要 学 习 类 认 知 
表示 的 方法 称 为 急切 学 习 。 对 IK 近邻 算法 来 说 , 其 类 认 知 表示 不 需要 学 习 ， 因 此 
没有 学 习 过 程 , 训练 时 间 为 零 。K 近邻 算法 只 有 在 收 到 分 类 请 求 时 才 计 算 类 相似 
上 映射， 是 懒惰 学 习 的 典型 代表 。 





习 题 

1. 给 定 一 个 二 维 空间 的 数据 集 : 
T = ((3,5)7 ,(6,3)7 ,(8,7)" 5,6)", (4,2)7 , (9,4)7), 根据 10.4 节 的 算法 构造 一 个 
kd Bj. 

2. 在 KK 近邻 算法 中 , 采用 “曼哈顿 距离 ”量度 , 修改 kd 树 算法 。 

3. 在 二 维 空间 中 , 随机 产生 2 类 数据 ,2 类 数据 满足 分 别 以 (71, 71) 和 (1, 1) 为 类 中 心 、1 
为 方差 的 高 斯 分 布 。 从 2 类 数据 中 分 别 选 取 50 个 点 作为 训练 集 ，500 个 点 作为 测试 集 ， 
应 用 最 近邻 算法 进行 分 类 , 计算 分 类 精度 。 
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第 11 章 线性 分 类 模型 


执 其 两 端 ， 用 其 中 于 民 。 
一 一 《中 庸 。 第 六 章 》 


在 分 类 算法 里 , 总 希望 类 认 知 表示 越 简单 越 好 。 类 认 知 表示 简单 到 不 需要 学 
习 的 , 是 K 近邻 算法 ， 其 输出 类 认 知 表示 由 输入 直接 决定 。 但 是 , 天 近邻 算法 对 
于 输出 类 的 认 知 表示 缺少 凝练 , 没有 给 出 输出 类 的 整体 描述 或 者 内 在 本 质 描述 。 
因此 , 给 出 一 个 输出 类 的 整体 描述 或 者 内 在 本 质 描 述 ( 即 认 知 表示 ) 就 变 得 非常 
有 吸引 力 。 在 单 类 学 习 中 , 回归 分 析 告诉 我 们 输出 类 的 认 知 表示 可 以 是 一 个 函数 。 
更 精确 的 说 法 是 , 假设 输入 输出 对 于 对 象 的 特征 描述 相同 , 如 果 特征 描述 位 于 欧 
氏 空 间 BP, 回归 分 析 告 诉 我 们 , 可 以 假设 输出 类 的 认 知 表示 是 R — R 中 的 一 个 
函数 。 注意 到 最 简单 的 函数 是 线性 函数 ,如果 假设 输出 类 认 知 表示 是 线性 函数 ， 
就 可 以 根据 归 类 公理 导出 所 谓 的 线性 分 类 模型 。 本 章 将 对 此 进行 详细 论述 。 





11.1 判别 函数 和 判别 模型 


根据 上 面 的 分 析 ， 假 设 输入 (X,U,X,Simx) 中 的 输入 类 认 知 表示 是 并 = 
{X1,Xo,--- 其 中 Xi = (x, fí(z)). fiw) 是 R ^ R bl — E X = 
[jpxw， Simx (x, Xi) = exp(fi(x)), 类 似 地 , 输出 (Y, V. Y, Simy) 中 的 输出 类 认 
知 表示 是 了 = {Y1 Y2, Yo} 其 中 , Y; = (y, Fily)) Fily) 是 Ri RAW 
个 函数 , 了 = [yrkJaxN, Simy (y, Yi) = exp(Fi(y))- 

假定 Y = X, WA y = 2, Vi, Fí(y) = F(x), Vk, yk = Zk。 根据 归 类 公理 , 此 
时 的 分 类 问题 可 以 简化 为 (X,U, Y, Simy), 其 中 (X,U) 为 训练 输入 ,(Y, Simy) 
为 待 学 习 的 分 类 器 ， 其 中 Simy (y, Y;) = Simy(z, 瑟 )。 给 定 标定 数据 集 X = 
[2i1,22,:-- ,ZN}，Zk 为 第 个 训练 样本 (i € {1,2,---,N}) H rp € RP, 对 应 
的 类 标 集 U = [uus sux] ux 为 第 天 个 训练 样本 的 类 标 (uy € R9). itt 
要 指出 的 是 ， 关于 类 标 有 多 种 表达 方式 。 一 种 常见 的 方式 是 : zk € X, W 
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Uk = [wik; U2k; >> ,Uek]"， 其 中 Vj dug = 0, ua 一 1。 另 一 种 文献 中 常见 的 类 
标 方式 , 类 标 集 UU = (uius, Suy o ux 为 第 天 个 训练 样本 的 类 标 满足 wk € I; 
其 中 工 = {1,2,--- ,c} MH {0,1,2,---,c-1}, 甚至 工具 是 一 个 具有 c 个 元 素 的 
Cfr. QE EB], 这 两 种 类 标 方式 在 归 类 表示 上 是 等 价 的 。 一 般 的 文献 中 , 第 二 种 

是 更 常见 的 类 标 。 

假设 样本 输出 空间 为 R?， 因此 第 i 类 的 输出 认 知 表示 是 豆 = (x, fi(z)), 其 
H, F; : RP RR 是 一 个 函数 ，Simy(z, 了 六) = exp(Fj(x)). 根据 归 类 公理 , x € 
X; & Vj # i, Simy(z,¥) > Simy (x, Yj) & Vj # iexp(Fi(z)) > exp(Fj(z)) & 
Vj # i, Fi(a) > 万 (z)。 在 传统 的 机 器 学 习 文 献 (如 AD 中 ,Fi(z) 称 为 第 i 类 的 判 
IRAR (Fs (c), F2(z),… ,Fe(z)} 称 为 判别 式 模型 。 

判别 式 函 数值 越 大 ， 表 示 该 值 对 应 的 样本 属于 该 类 的 概率 越 大 ， 反 之 越 
小 。 — RES, Vivj, Fi(z) — F(x) = 0 称 为 第 i,j 类 的 决策 超 平面 。 特 别 地 ， 如 果 
Vi, F(x) > 0 > z € X; Aa ¢ X; > F(x) < 0, 满足 这 样 一 组 条 件 的 判别 式 模型 
称 为 正则 判别 式 模型 。 显 然 对 于 正则 判别 式 模型 , 如 果 一 个 样本 只 能 归 为 一 个 类 ， 
必然 有 ViY7 天 了 全 {a|F;(x) > 0} 2 {2|F;(x) > 0} = 9. 


11.2 ”线性 判别 函数 


众所周知 ,函数 中 最 简单 的 是 常数 函数 , 但 是 常数 函数 对 于 样本 的 分 辨 能 力 
低 , 既 不 能 区 分 不 同 的 类 内 样本 , 也 不 能 区 分 不 同 的 类 外 样本 , 因此 在 设计 判别 函 
数 的 时 候 可 以 不 予 考虑 。 除 此 之 外 , 最 简单 的 函数 就 是 线性 函数 。 如 果 假 设 判别 
函数 是 线性 函数 , 即 假设 F(z) = wre + wios Simy (x, Yj) = exp(w7 s + wio)» wi 
是 一 个 p x 1 的 向 量 , wio 是 一 个 标量 , 则 此 时 训练 集 必须 满足 凸 集 分 离 定 理 ， 这 
样 的 类 表示 才 是 有 效 的 。 当 然 , 这 样 构造 的 类 表示 也 必须 满足 样本 可 分 性 公理 。 
然后 , 根据 归 类 等 价 公 理 , 对 未 来 的 样本 进行 分 类 即 可 , 即 样本 x 属于 类 Y; 的 类 
判别 函数 为 F(x) = arg maxy, Simy (x, Yj) = wia + wio 一 般 称 此 时 的 类 判别 函 
数 Fi(z) 为 线性 判别 函数 。 

为 更 进一步 分 析 此 类 分 类 器 的 性 质 , 先 分 析 最 简单 的 情形 。 


。 两 分 类 线性 判别 分 析 


对 于 两 分 类 情形 的 线性 判别 函数 ,可 以 根据 奥 卡 姆 剃刀 准则 进一步 减少 类 认 
知 表示 含有 的 参数 。 理由 如 下 : WR F(x) = whe 十 zlo， 配 (z) = wrr + ww 
则 可 知 其 决策 超 平面 为 互 (z) 一 (x) = (wi — we)? x + wio — woo =0 也 是 线性 
PR. $ w = wi — wa, = wo — woo, WR (X,U) 线性 可 分 考虑 到 训练 集 
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中 样本 为 有 限 集 ， 可 知 必 存 在 YY AOC RMB ec eX => (w')Tz 十 以 一 7 >0 
Aa € XQ => (w)r+b +y < 0。 因 此, HARI Yi = wz 十 一 1 和 
Yo = -wr — b — 1, 这 时 的 分 类 器 参数 个 数 最 少 , 因此 , 是 最 简单 的 线性 分 类 器 。 
这 样 ; F(z) wTr+b-—1, F(x) wwTr 一 5 一 1。 因 此 如 果 训 练 集 线 性 可 分 类 ， 
MUH Vr, € Xi fi wTz--b—120, Vr, € Xo A —wTz — b —1 > 0. 此 时 归 类 
公理 显然 成 立 。 
显然 , 此 时 两 类 线性 判别 函数 形成 一 个 决策 超 平面 如 下 : 
2f(z) = FA(z) — Fo(x) = (wz +b- 1) — (-wTz — b — 1) 
= 2wlx + 2b = 2(wTz + b) 


如 果 训 练 集 线性 可 分 类 , 根据 上 面 的 假设 可 以 知道 , Vary, € Yi WAL wTa +b > 
0, Vr, € Yo WA —wla — b > 0。 方 程 f(x) = wie +b = 0 定义 了 一 个 判定 超 平 
面 五 , 把 属于 正 例 的 点 与 属于 负 例 的 点 分 离开 ， 即 对 应 正 例 的 决策 区 域 RH 和 对 
应 负 例 的 决策 区 域 R 如 图 11.1 所 示 。 























(11.1) 





4 
f(a)=0 N 


JP)<0 








-— 





图 11.1 ”线性 超 平面 二 分 类 示例 图 


e 多 类 线性 判别 函数 
考虑 训练 集合 中 的 样 例 类 别 多 于 两 类 , 假设 共 含 有 c 个 类 ,并且 每 个 类 都 有 
正则 线性 判别 式 可 以 将 该 类 与 其 他 类 别 正 确 划分 。 即 有 c 个 线性 判别 式 : 
Fi(z) = wiz--wi, Wi € {1,2,---,c} 
ae 20-ccY (11.2) 





F(x) «0e z£Y, 


这 一 系列 判别 式 表明 对 于 每 个 类 Y; 都 存在 一 个 超 平面 H;, 使 得 所 有 x © Y; 
都 在 该 超 平面 的 正 侧 , 所 有 z E Yj iz j 都 在 其 负 侧 ， 如 图 11.2 所 示 。 
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图 11.2 3 类 线性 可 分 示意 图 


图 11.2 中 表示 的 是 一 种 理想 情况 ， 即 每 个 输入 zx 都 只 有 一 个 F(x) > 0, 而 
其 他 的 判别 式 结果 都 小 于 0。 而 现实 数据 中 并 不 能 保证 达到 这 样 的 理想 情况 , 超 
平面 的 正 侧 经 常会 出 现 重 县 的 情况 , 即 有 多 个 F(x) > 0. 同时 还 有 可 能 出 现 对 于 
某 个 输入 的 所 有 判别 式 结果 都 小 于 0, 这 种 输入 样 例会 被 拒绝 , 或 称 为 拒绝 案例 。 
为 了 解决 这 种 情况 , 则 采用 把 样 例 指派 到 具有 最 大 判别 式 值 的 类 。 也 就 是 说 ， 如 
R Fx) > 0 值 最 大 , 选择 到 作为 zx 的 类 。 这 显然 也 与 归 类 公理 一 致 。 可 以 证 明 ， 
正则 线性 判别 式 将 输入 空间 划分 为 e ARREK Ro Ri 中 的 点 属于 第 i 类 。 


。 线性 不 可 分 


线性 判别 分 析 并 不 是 对 所 有 二 类 分 类 问题 都 适用 ,如 图 11.3 示例 , 用 线性 方 
法 就 不 能 正确 分 类 。 











图 11.3 ”两 类 线性 不 可 分 情况 
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多 类 分 类 问题 上 , 同样 存在 线性 不 可 分 情况 , 如 图 11.4 所 示 。 











图 11.4 样 例 在 不 同 分 离 平 面 下 所 给 定 的 类 标 不 同 


解决 线性 不 可 分 的 一 般 方法 是 寻找 新 的 特征 空间 , 使 该 问题 在 新 特征 空间 里 
化 为 线性 可 分 问题 。 这 种 方法 的 一 般 形 式 将 在 本 书 的 后 面 章节 中 讨论 。 


11.3 ”线性 感知 机 算法 


在 类 表示 确定 为 线性 函数 后 ,如 何 通过 训练 数据 将 每 类 的 类 表示 《〈 即 线性 函 
BO) 学 习 出 来 , 就 是 学 习 算法 需要 解决 的 问题 。 二 分 类 线性 模型 是 最 简单 的 分 类 
问题 。 通过 上 面 的 分 析 , 对 于 二 分 类 问题 , 学 习 到 决策 超 平面 wTz 十 b = 0 就 可 以 
T, 此 时 两 类 的 输出 类 表示 可 以 设 定 为 六 = (x, wT ax +b) f Ya = (x, —wTz — b). 
按照 这 种 思路 ，1957 年 Rosenblatt 提出 了 线性 感知 机 算法 aq 。 对 于 二 分 类 问题 ， 
类 标 集合 一 般 设 定 为 了 = {一 1, 1}。 

线性 感知 机 (perceptron) 是 一 个 典型 的 二 分 类 算法 , 该 算法 输入 为 样本 向 
EER X = {zi,z2,… ,ZN} 及 其 对 应 的 类 标 集合 UV = (uus ,un}， 其 中 
Vk, zs € RP up € {一 1,1}, 旨 在 求 出 将 训练 数据 进行 线性 划分 的 分 离 超 平面 
wre 十 b 二 0, 该 超 平面 将 实例 划分 为 正 负 两 类 实例 。 





11.3.1 感知 机 数据 表示 
根据 以 上 的 假设 可 知 , 感知 机 的 类 相似 性 映射 为 : 


Simy (x, Y1) = exp(w?z + b) 
= (11.3) 
Simy (z, Y2) = exp(—wT x — b) 


152 机 器 学 习 : 从 公理 到 算法 





则 根据 归 类 公理 可 知 ， 类 判别 函数 为 h(x) = max; In Sim(z, 瑟 )。 感知 机 假设 输入 
对 象 线 性 可 分 , 即 存在 超 平面 wTz 十 b= 二 0, wTz 十 b > 0 一 面 为 正 例 , wTr+b <0 
一 面 为 反例 。 则 感知 机 的 类 预测 函数 可 以 表示 如 下 : 
h(x) = sign(wTa + b) (11.4) 
其 中 , w 和 5 为 感知 机 类 预测 函数 的 参数 , w e RP 称 权 值 或 权 值 向 量 , b 6 R BK 
偏 置 。 
EN +1, «>0 
sign(x) = { e acd (11.5) 
函数 sign(z) 输出 值 为 1 的 样本 为 正 例 , 输出 值 为 —1 的 样本 为 负 例 。 
线性 感知 机 的 假设 前 提 是 样本 空间 线性 可 分 , 即 有 一 个 分 离 超 平面 (h(x) = 
wa + b) 能 够 将 特征 空间 划分 为 两 个 部 分 。 感 知 机 学 习 的 关键 是 根据 输入 的 样 例 
学 习 分 离 超 平面 的 参数 w 和 be 





11.3.2 ”感知 机 算法 的 归 类 判 据 


根据 归 类 公理 可 知 ， 感 知 机 归 类 判 据 的 目标 是 找到 最 优 的 类 预测 函数 ， 能 将 答 
入 训练 集中 正 负 实例 分 开 的 分 离 超 平面。 由 于 类 表示 唯一 性 公理 对 于 分 类 问题 一 般 
不 再 成 立 ， 因 此 ， 作 为 使 得 类 表示 唯一 公理 尽 可 能 成 立 的 类 一 致 性 准则 要 求 误 分 类 
实例 尽 可 能 得 少 。 同 时 ,感知 机 也 希望 类 内 紧 致 。 因 此 ,对 于 同一 个 样本 ,其 输入 
的 类 标 与 输出 的 类 标 如 果 一 致 ， 则 其 类 内 相 异 度 应 该 为 零 。 如 果 不 一 致 时 ， 该 错 
分 样本 应 该 离 决策 超 平面 越 近 越 好 ， 该 错 分 样本 离 决策 超 平面 越 远 表明 该 错误 越 
大 根据 以 上 两 点 要 求 ， 对 于 一 个 样本 ox 其 输入 表示 为 mx， 其 笨 出 表示 为 in， 
感知 器 算法 对 该 样本 的 类 内 相 异 度 定义 为 元 $i = [oin (0, en t) 
其 中 错误 分 类 样本 到 超 平面 的 距离 记 作 ， 
uy (w Tay, +b) 
[el 
显然 ， 对 于 感知 机 ， 误 分 类 的 样本 (ce, un) 满足 ulutan +b) > 0， 而 正 分 类 的 
样本 (1p, up) 满足 ug( wT ary +0) > Oo 因此 , 根据 类 一 致 性 准则 和 类 紧 致 性 准则 ， 
可 以 得 到 感知 机 算法 的 归 类 判 据 为 最 小 化 公式 (11.7); 


E m N N 
IX - Yl - 3 Ei-h8-», 
k=1 大 


=i 














(11.6) 


min (o. (11.7) 


Up(WT Dk 十 ?) 
| w || 





其 中 , || w || Ew 的 L 范 数 。 
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由 于 任意 正 分 类 样本 zx 使 得 min(0,wx(wTzx + b)) = 0, 因此 ,公式 (11.7) 
可 以 化 简 为 错误 分 类 样本 到 超 平面 的 总 距离 : 


1 
E XO ux(wT re +b) (11.8) 
TkEM 





其 中 M 为 误 分 类 样本 的 集合 。 
为 学 习 决 策 超 平面 , 最 小 化 公式 11.8) 的 函数 求解 参数 w，b， 其 与 最 小 化 
R (11.9) “UP: 





L(w,b) =— >》 p(w? ey +b) (11.9) 
zkEM 
公式 (11.9) 是 分 类 判 据 , 该 判 据 表明 , 误 分 类 样本 越 少 , 误 分 类 样本 离 超 平面 越 
AE, L(w,b) 的 值 就 越 小 。 如 果 没 有 误 分 类 样本 , L(w, b) 值 为 0。 下 面 介绍 学 习 最 
Mt. L(w, b) 值 的 w, b. 


11.8.8 ”感知 机 分 类 算法 

感知 机 分 类 算法 利用 随机 梯度 下 降 法 学 习 超 平面 的 参数 , 学习 算法 有 原始 形 
式 和 对 倡 形式 。 

。 感知 机 学 习 算法 的 原始 形式 


感知 机 学 习 算 法 采用 随机 梯度 下 降 法 (stochastic gradient descent) 最 小 化 
公式 (11.9)。 首 先 任意 选取 一 个 超 平面 wo, bo， 然 后 用 梯度 下 降 法 不 断 极 小 化 公 
式 (11.9)。 极 小 化 的 过 程 是 一 次 随机 选取 一 个 误 分 类 样本 使 其 梯度 下 降 。 

假设 误 分 类 样本 集合 M 是 固定 的 , WORF Lw, b) 的 梯度 计算 如 下 : 


VoL(w,b) =- M uz 


IkEM 


(11.10) 
VoL(w,b) =- 》 ux 
zkEM 
随机 选取 一 个 误 分 类 样本 (zk, ur)， 对 w, b 进行 更 新 : 
Ww — W + NUkTk 
(11.11) 


b — b+ qui 


式 中 了 是 步 长 ， 又 称 学 习 率 。 通 过 和 迭代 使 归 类 判 据 最 小 化 。 由 此 得 到 感知 机 学 习 
算法 的 原始 形式 。 
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算法 11.1 感知 机 学 习 算 法 的 原始 形式 

输入 : 训练 数据 集 X = (21, U1), (22,U2),… (aw, un), 其 中 £k € RP uk € {-1, +1}, k = 
12,,N;0«g«1 

输出 : w,b 

(1) 选取 初 值 wo, bo; 

(2) 在 训练 集中 选取 数据 (zk, ux): 

(3) WER us wT y +b) <0, 


W — w d NUkEk 


b — b+ nuk 
(4) 转 至 (2). 直至 训练 集中 没有 误 分 类 样本 。 口 


感知 机 学 习 算法 的 原始 形式 具有 如 下 解释 : 当 一 个 样本 被 误 分 类 ， 即位 于 分 
离 超 平面 的 错误 一 侧 时 ， 则 调整 w, b 的 值 ,使 分 离 超 平面 向 该 误 分 类 样本 的 一 侧 
移动 ， 以 减少 该 误 分 类 样本 与 超 平面 间 的 距离 ， 直 至 超 平面 越过 该 误 分 类 样本 使 
其 被 正确 分 类 。 

Novikoff 在 1962 年 证 明了 感知 机 算法 的 收敛 性 5), 即 在 训练 集 线 性 可 分 时 
线性 感知 机 算法 有 限 步 内 必 收 敛 。 更 加 精确 的 陈述 有 Novikoff 定理 。 


定理 11.1 (Novikoff EH) 该 样本 训练 集 = {zx1,z2,… ,ZN} 及 其 对 应 
WARES U = (uj, u2, ,un} 线性 可 分 , 其 中 Vk, zk € RP, up € {-1,1}, 则 
1. 存在 满足 条 件 |[(w, b) = 1 的 超 平面 wTz +b = 0 将 训练 集 正确 分 类 ,， 且 存 
1E y > 0, Vk € (,2,--- , Nb, ui(wTz +b) 2 y. 
2. 4 R = maxizxz ||, 1) UL ALL TE WARDHA KC 满足 不 等 式 
K«RN?, 
关于 感知 机 算法 的 收敛 性 证 明 ， 可 参阅 文献 [13] 。 


e 感知 机 学 习 算法 的 对 偶 形 式 

对 于 感知 机 算法 学 习 到 的 wo, b, 其 最 终 将 w 和 5 表示 为 样本 zk 和 类 标 wk 的 
线性 组 合 的 形式 。 其 证 明 如 下 : 假设 初始 值 wo = 0,bo = 0, 在 感知 器 算法 中 , 误 
分 类 样本 (zx, ux) 通过 下 式 逐 步 修 改 w, b: 








W — wt quy 
(11.12) 
b — b+ qux 
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w,b 关 于 (xe, ue) 的 增 量 分 别 是 akukzk 和 akuk，ak = npm。 则 最 后 学 习 到 
H w, b 可 表示 为 : 


N 
w= > AkUkTk 
k=1 


N 
b= X QOkUk 
k=1 


当 学 习 率 刀 = 1, oy > 0 表示 第 大 个 样本 由 于 误 分 而 进行 更 新 的 次 数 。 样 本 更 新 
次 数 越 多 ， 其 离 分 离 超 平面 越 近 ， 就 越 难 正 确 分 类 。 这 样 的 样本 对 学 习 结 果 影 响 
最 大 。 公式 (11.13) 表明 了 w 和 4。 为 样本 zk 和 类 标 ur 的 线性 组 合 。 
据 公式 (11.13), 感知 机 算法 只 要 学 到 样本 组 合 系数 ak 即 可 。 由 此 , 可 以 给 
感知 机 学 习 算 法 的 对 偶 形 式 。 
算法 11.2 ”感知 机 学 习 算 法 的 对 偶 形 式 
输入 : 训练 数据 集 X = (ziytua),(zaua)…,(zNUWN)， 其 中 zk € RP? uk € {-1, +1}, k = 
1,2,- ,N;0< <1 
输出 : ob, 线性 类 预测 函数 h(z) = sign( = oxugzTa +b): JE a € RN 
(1)a—0,b—0; 
(2) 在 训练 集中 选取 数据 (zk ux): 
(3) 如 果 (X aqua, ay 十 b) <0, 


(11.13) 





Oy — Oy t 1] 


b— b+ qux 





(4) 转 至 (2), 直至 训练 集中 没有 误 分 类 样本 。 口 


感知 机 学 习 算 法 对 偶 形 式 中 的 样本 信息 是 以 两 两 样本 的 内 积 形式 出 现 的 ， 
其 样本 的 原始 特征 在 感知 机 学 习 算法 的 对 偶 形 式 中 已 经 消失 不 见 。 注 意 到 两 个 
样本 的 内 积 在 一 定 意义 上 表示 了 两 个 样本 之 间 的 相似 性 ， 而 相似 性 在 人 们 的 
模式 识别 系统 中 举足轻重 , 这 对 于 人 们 研究 学 习 算法 给 予 了 极 大 启发 ， 即 设计 
学 习 算法 的 时 候 可 以 不 需要 知道 样本 的 原始 特征 信息 ,知道 样本 间 的 内 积 或 者 
相似 性 就 可 以 了 , 这 导致 了 学 习 算 法 设计 的 一 次 革命 ,本 书 将 在 后 面 章节 中 进 
一 步 论 述 。 一 般 地 ,训练 集 样 本 间 的 内 积 可 以 用 Gram 矩阵 (Gram matrix) 表 


示 , G = [zk Zl]NxN。 
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11.4 支持 向 量 机 


分 类 器 算法 分 类 正确 时 ， 类 分 离 准则 要 求 最 优 的 类 表示 应 该 具有 最 大 
间距 。 根据 前 面 的 分 析 ， 考虑 到 两 类 线性 分 类 器 算法 的 输出 类 表示 为 到 = 
(,wTzx + b—1) f Ya = (x, -wlx — b — 1), 显然 这 两 个 类 表示 为 平行 线 , 因此 
根据 类 分 离 准则 ， 最 优 的 类 表示 应 该 使 得 彼此 间距 最 大 ， 即 平行 线 间 的 距离 最 
大 ,由 此 可 以 引出 支持 向 量 机 (support vector machine, SVM) EU. SVM 最 早 
由 Vapnik fet Bl, 用 来 处 理 线性 可 分 的 二 分 类 问题 。 

本 节 分 别 介绍 线性 可 分 支持 向 量 机 和 近似 线性 可 分 支持 向 量 机 的 定义 、 几 何 
解释 、 归 类 判 据 及 归 类 算法 。 


LIK 














11.4.1 线性 可 分 支持 向 量 机 
e 归 类 表示 


假设 对 象 集合 X C RN， 每 个 对 象 可 表示 为 特征 空间 的 特征 向 量 zk = 
((zh)i (zh)2…,(zh)p)T， 每 个 对 象 的 类 标 取 值 u; € (1, 一 1}。 线性 可 分 支持 向 量 
机 是 二 类 分 类 器 , 输出 类 表示 为 六 = (x, whe t+b—-1) Al Ya = (a, -wTz—b—1), Yı 
的 类 判别 函数 Fa (c) = wTz +b- 1, Yo 的 类 判别 函数 Fo(z) = —wTz — b — 1. 
假设 训练 集 线 性 可 分 ， 即 如 果 cy € Yi WA wTz-d-b—120. WR a, € Yo WA 
一 wTz —b—12 0. 2€ Y, IARE EIUM Jy Simy (x, Y1) = exp(wTa -- b — 1), 类 
Yo 的 类 相似 性 映射 为 Simy (x, Y2) = exp(-wTz — b — 1). 在 上 面 的 假设 下 , 容易 
证 明 归 类 等 价 公 理 对 于 上 述 的 输出 类 表示 是 成 立 的 。 如 图 11.5 所 示 , 两 条 虚线 对 
应 每 个 输出 类 的 判决 超 平面 , 中 间 的 实 线 对 应 最 优 分 离 超 平面 wTz 十 b= 0. 这 里 
f(z)=wTz + b=0 定义 了 一 个 超 平面 , 其 中 权重 向 量 为 w， 同 时 还 设 定 阔 值 5。 














f()50 
图 11.5 ”两 类 对 象 判决 超 平面 与 分 离 超 平面 
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。 归 类 判 据 


根据 类 分 离 性 准则 可 知 , 最 优 的 类 判别 超 平面 wTz +b- 1 = 二 0 和 一 wTz 一 

b 一 1 = 0 可 通过 最 大 化 两 类 判别 函数 对 应 超 平 面 的 距离 得 到 。 两 类 函数 的 超 
T T 

平面 距离 为 (w ST ety) ET 注意 : wTz 十 b 一 1 二 0 和 

一 wTz —b-1=0 两 个 平面 平行 , 没有 实例 落 在 两 个 平面 之 间 , 分 离 超 平面 与 这 

两 个 平面 平行 且 位 于 二 者 中 央 , 如 图 11.5 Bizn- 两 个 平面 之 间 的 距离 成 为 间隔 ， 

间隔 依赖 于 分 离 超 平面 的 法 向 量 w 等 于 一 一 。 类 分 离 性 准则 希望 间隔 越 大 越 


Iw || 


好 , 因此 , 线性 可 分 支持 向 量 机 的 目标 函数 为 : 








max —— 
wb lwll 


(11.14) 
s.t. uj(wTrzy45b)—120, k=1,2,---,N 


。 线性 可 分 支持 向 量 机 分 类 算法 
由 于 最 大 化 Tal 与 最 小 化 3 || w | 等 价 ， 因 此 线性 可 分 支持 向 量 机 学 习 可 


lw 


形式 化 为 下 面 的 凸 二 次 规划 最 优化 问题 : 


dut || w ||? 
wb 2 (11.15) 
s.t. up(wla, +b) —1>0, k=1,2,---,N 


使 用 拉 格 朗 日 乘 子 ak 将 原始 优化 问题 改写 成 非 约束 的 拉 格 朗 日 函数 
(11.16): 


N 
1 
L(w, b,a) = lel? — Y 5 aalua(wT ze +) = 1] 
k=1 
(11.16) 


N 
1 
= zll? = b» oxuy (way +b) + > Qk 


k=1 k=1 


EP, a= (anan: an)" 为 拉 格 朗 日 乘 子 向 量 。 
将 拉 格 朗 日 函数 (11.16) 分 别 对 w, bo OE A HOUSE, Wiw = Yo apurra 


158 机 器 学 习 : 从 公理 到 算法 





和 Y aru = 0, 代入 原始 拉 格 明日 函数 (11.16)， 从 而 得 到 式 (11.17): 
LT 
N 1 N N 
L(w,b,a) = So x E EE Ug up aqu E LL (11.17) 
k=1 
因此 , 目标 函数 变 为 式 (11.18): 


N 1 NN 
L(a)= X. ak 一 5 b» b» UpUpApayey, xy 


k=1 k=1 l=1 





2 (11.18) 
s.t. J urar =0, ar 20, k =1,2,---,N 
k=1 
根据 原始 最 优化 问题 (11.15) 和 对 偶 最 优化 问题 (11.18) 的 关系 (具体 参考 最 
优化 理论 与 算法 ) 可 知 , FE w*,a*, 8*. 使 w* 是 原始 问题 的 解 , a*,B* 是 对 偶 问 
题 的 解 。 
利用 a* 的 一 个 正 分 量 af > 0 来 计算 b* 值 : 


N 
b =u- eiu. ui) (11.19) 
k=1 


算法 11.3 ”线性 可 分 支持 向 量 机 对 偶 问 题 学 习 算 法 
输入 : 线性 可 分 训练 数据 集 X = {(zayua),(zaua)……,(zwuv)}， 其 中 zk € RP, uk € 
(-1,41) 
输出 : w, b 和 类 判别 函数 
DR: 
(1) 基于 类 分 离 性 准则 构造 如 公式 (11.18) 的 约束 最 优化 问题 , 求 得 最 优 解 a* = (o1, a3, aN)T: 
计算 由 = Y arune 并 选择 ar 的 一 个 正 分 量 a? > 0: 
Ea 


N 
WE b* =u — Y; o&ux(zi + zi): 
k=1 


(2) 求 得 两 类 的 判别 函数 P (x) 和 F(a). 口 





。 支持 向 量 


对 于 上 述 优化 问题 , Karush-Kuhn-Tucker 互补 条 件 提供 了 关于 解 的 结构 信 
息 , 该 条 件 要 求 最 优 解 (wo*, b*) 满足 : 
o& [ux ((w*)T ay + b*) — 1] — 0, k=1,2,---,N (11.20) 
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通过 该 条 件 可 以 看 出 ,如 果 样 本 位 于 类 判别 超 平面 , 其 对 应 的 ax 非 零 ; 如 果 
样本 远离 类 判别 超 平面 , 对 应 的 oz 为 0。 最 终 的 权重 向 量 表达 式 中 只 包括 这 些 解 
为 非 0 的 位 于 类 判别 超 平面 的 样本 , 我 们 将 of > 0 的 zx 的 集合 称 为 支持 向 量 ， 
显然 它们 都 位 于 分 类 超 平 而 wTz 二 b= 二 1 和 wTz+b= 二 一 1 上。 

这 些 样 本 构成 的 支持 向 量 机 的 决策 域 越 小 , 支持 向 量 机 的 泛 化 能 力 越 好 。 在 
决定 分 离 超 平面 时 只 有 支持 向 量 起 作用 ,其 他 样本 并 不 起 作用 。 移 动 支持 向 量 会 
改变 线性 支持 向 量 机 目标 函数 (11.14) 的 最 终结 果 , 在 两 个 分 类 超 平面 以 外 移动 
甚至 删除 其 他 点 不 会 影响 最 终 优 化 结果 。 因 此 , 支持 向 量 在 确定 最 终 分 类 结果 中 
起 着 决定 性 的 作用 ， 所 以 称 为 支持 向 量 机 分 类 模型 。 线 性 支持 向 量 机 对 偶 算 法 认 
为 落 在 类 内 部 的 样 例 对 超 平面 没有 影响 ,只 关注 那些 靠近 边界 的 样 例 。 可 以 在 使 
用 SVM 之 前 使 用 一 种 较 简 单 的 分 类 器 过 滤 类 内 部 的 一 部 分 样 例 ， 从 而 降低 SVM 
优化 阶段 的 复杂 度 。 











11.4.2 ”近似 线性 可 分 支持 向 量 机 


本 节 将 线性 可 分 支持 向 量 机 扩展 到 数据 近似 线性 可 分 的 情况 下 ,此 时 数据 
集合 分 类 判 据 不 仅 需要 类 分 离 性 准则 ,还 需要 进一步 利用 类 紧 致 性 准则 。 下 面 依 
次 介绍 近似 线性 可 分 支持 向 量 机 的 问题 定义 、 类 判别 函数 表示 、 分 类 判 据 及 分 类 
算法 。 


e 近似 线性 支持 向 量 机 问题 表示 


实际 问题 中 很 多 分 类 数据 线性 不 可 分 此 时 , 线性 可 分 支持 向 量 机 就 失效 了 。 
假设 造成 对 象 线性 不 可 分 的 原因 是 : 训练 数据 中 存在 一 些 特异 样本 。 如 果 能 剔除 
这 些 特异 样本 , 则 剩 下 的 数据 样本 集合 是 线性 可 分 的 。 所 谓 近 似 线性 可 分 是 指 这 
些 特异 样本 不 满足 与 类 判别 函数 超 平面 的 间隔 大 于 等 于 1, 为 解决 该 问题 , 定义 
松弛 变量 &, > 0 表示 间隔 离 差 。 称 此 类 间隔 为 软 间 隔 。 如 果 & = 0,， 则 该 样本 没 
有 问题 ; 如 果 0 < & < 1, 该 样本 分 类 正确 ; 但 是 当 & > 1， 则 该 样本 分 类 错误 ， 
如 图 11.6 所 示 。 

相应 放宽 对 于 每 个 样 例 点 的 约束 条 件 : 


st. up(wT Er +b) > 1- ér k=1,2,-,N 








(11.21) 
& 20, K=1,2,---,N 


e 近似 线性 支持 向 量 机 分 类 判 据 
依据 类 分 离 性 准则 和 类 紧 致 性 准则 可 得 , 最 优 的 类 判别 函数 需要 满足 下 面 的 
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图 11.6 图 中 包括 三 种 情况 : (1) & = 0, 分 类 正确 离 超 平面 足够 远 ; (2) & = 1+ 
F(x), 分 类 错误 ; (3) €& = 1— f(x). 样 例 在 正确 一 侧 , 但 在 边缘 内 , 离 超 平面 不 够 远 





目标 函数 : 
N 
minae elf tCM& (11.22) 
k=1 
软 误差 ”人 kx 表示 不 能 用 规定 边缘 分 开 的 程度 , 但 它 也 反映 了 类 内 紧 致 的 程 
k 
度 。 显然 , TG UK, 类 内 紧 致 性 越 差 ; 人 越 小 , 类 内 紧 致 性 越 好 。 4 Y 6, = 0 
k k k 
时 ， 此 时 紧 致 性 最 好 , 样本 集 完全 线性 可 分 了 。 目标 函数 中 参数 C > 0 为 惩罚 参 
数 ， 该 值 变化 范围 很 大 。C 的 大 小 代表 对 错误 分 类 的 惩罚 力度 ，C 值 大 则 惩罚 力 
度 大 , C 值 小 则 惩罚 力度 小 。 
近似 线性 支持 向 量 机 可 形式 化 为 如 下 的 最 优化 问题 : 


N 
; 1 
minua lwl]? 十 C 5 Ek 
k=1 
11.23 
&. ug(wT a, +b) > 1— €x ( ) 


&20,E£-135:«,N 
其 中 参数 C 在 一 定 范围 内 变化 时 , |lwll? 会 有 相应 的 连续 变化 。 也 就 是 说 ，C 的 值 
对 应 着 wl? 值 的 选择 , 计算 时 要 当前 w 下 最 小 化 Jelle 
。 对 偶 最 优化 问题 


同 线性 可 分 情况 一 样 ,将 近似 线性 可 分 情况 下 的 最 优化 问题 转换 成 对 偶 问 题 。 
根据 原始 最 优化 问题 的 公式 (11.23) 可 得 拉 格 朗 日 函数 如 下 : 
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L(w,b,a) = 了 ol 十 ca 一 S bote zy-Fb)—1-c£&]- S od 


k=1 k=1 
(11.24) 


xX (11.24) Pa, > 0, 同时 为 保证 & WIE, 加 入 了 新 的 拉 格 朗 日 参数 ur > 0, 其 
中 C 为 惩罚 参数 , 在 支持 向 量 数 和 误 分 类 点 之 间 权衡 。 该 方法 既 惩 罚 了 误 分 类 的 
点 也 惩罚 了 边缘 中 的 点 , 达到 了 更 好 的 泛 化 性 名。 

对 拉 格 朗 日 函数 (11.24) 求 超 平面 控制 参数 (w, b) 以 及 松弛 变量 6; 的 极 小 值 ， 
分 别 求 偏 导 得 到 公式 (11.25): 





b 
LC a. Yuma 





OL(w,b,a) _ 11.25 
= a Mes (11.25) 
OL(w,b,o) 
mur A 


在 公式 (11.25) 中 令 各 偏 导数 为 0, 计算 得 到 关系 式 (11.26): 
(11.26) 


将 式 (11.26) 代入 原 拉 格 明日 目标 函数 (11.24), 优化 问题 转变 为 : 


N N 


N 
1 
miny,p,¢L(w, b,a, £, 4) = > ak 一 3 5 > Ug UO OTT (11.27) 


k=1 k=1 l=1 


与 线性 可 分 支持 向 量 机 类 似 , 最 优化 问题 的 对 偶 形 式 为 : 


N IAM 
mina W (a) = > 9k - 5 > ME Ug pO OT 
k=1 


k=1 i (11.28) 
s.t. uos = 0, 020o,2C; k=1,2,---,N 
=E 
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其 结果 与 线性 可 分 情况 相同 ,a 为 对 偶 问 题 的 解 , 则 原始 问题 的 控制 参数 的 
解 (w*,b*) 为 : 


N 
w= > moje (11.29) 
k=1 
N 
b*-u- eiu. zi) (11.30) 
k=1 


近似 线性 可 分 情况 下 的 支持 向 量 比 线性 可 分 情况 更 复杂 一 些 , 对 于 对 侦 问题 
的 解 ex， 对 应 于 o > 0 的 样 例 点 为 软 边缘 的 支持 向 量 机 。 这 些 样 例 点 距离 超 平 
面 有 间隔 离 差 , 如 图 11.7 所 示 , 图 中 &/|lwl| 表示 样 例 zx 到 超 平面 的 距离 。 











图 11.7 软 边缘 超 平面 的 支持 向 量 


11.4.8 ”多 类 分 类 问题 


上 述 分 类 情况 均 以 两 类 分 类 作为 研究 问题 , 现在 考虑 训练 集合 中 的 样 例 类 别 
多 于 两 类 。 假设 共 含有 c 个 类 , 并 且 每 个 类 都 有 线性 判别 式 可 以 将 该 类 与 其 他 类 
别 正确 划分 , 这 种 方法 为 一 对 多 分 类 。 该 方法 最 终 会 得 到 c 个 判别 式 。 
Fı(x|w1,b1) = wrs +b 


Fo(x|we, by) = wy x + bz 


F.(a|we, be) = wIx + be 
这 一 系列 判别 式 表明 对 于 每 个 类 C; 都 存在 一 个 超 平面 hi, 使 得 所 有 © Y; 都 在 
该 超 平面 的 正 侧 , 所 有 z e Y; iA j MEM RN, 如 图 11.8 所 示 。 
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图 11.8 对 于 e=3 的 多 类 分 类 问题 ， 当 类 都 是 线性 可 分 时 ， 存 在 3 个 超 平面 
hi, ha, ha 将 该 类 与 其 他 类 别 划 分 开 。 线 性 分 类 器 经 过 归 约 后 的 边界 用 虚线 表示 


图 11.8 中 表示 的 是 一 种 理想 情况 ， 即 每 个 输入 z 都 只 有 一 个 Fi(z | wi, bi) > 
0, 而 其 他 的 判别 式 结果 都 小 于 0: 
» => «rey; 
Fi(z | wi, bi) = m (11.31) 
<0 € z£Y 
现实 数据 中 并 不 能 保证 达到 这 样 的 理想 情况 , EST TRIS EWA AS LECCE TT T 
况 , 即 有 多 个 Fir | wi, bi) > Oo 同时 还 有 可 能 出 现 对 于 某 个 输入 ac 的 所 有 判别 式 
结果 都 小 于 0, 这 种 输入 样 例会 被 拒绝 , 或 称 为 拒绝 样 例 。 对 于 这 种 情况 ， 归 类 公 
理 将 把 对 象 指派 到 距离 类 超 平面 最 远 的 类 : 


Assign Y; if F;(x)= max F;(x) (11.32) 
— j 


该 方法 将 特征 空间 划分 成 了 c SRE, 通过 样 例 所 在 的 区 域 来 选择 所 
属 类 别 , 达到 分 类 效果 。 这 种 解决 方式 的 泛 化 能 力 会 变 差 , 假设 共有 N 个 输入 样 
例 ， 总 共 要 计算 c x N 个 判别 式 结果 。 

另 一 种 方法 是 对 c 个 类 别 进行 两 两 判别 ,， 即 一 对 一 分 类 。 该 方法 将 对 c 个 类 
别 中 的 每 个 去 都 找到 能 与 Yj, j 去 i 分 开 的 超 平面 , 共 使 用 了 c(c — 1)/2 个 线性 判 
H f(x) 如 图 11.9 Bras, 每 对 不 同 的 类 都 由 一 个 超 平 面 来 划分 : 


Fag (a | wig, big) = wis” + dig (11.33) 


> 0, EY 
fy) = (11.34) 


« 0, sey; 
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其 中 i,j = 1,2,… c HH i z jo 如果 存在 样 例 c, € Yo, k Aik Aj WEVA 
Fale) 时 不 使 用 该 样 例 ,认为 该 样 例 对 划分 Y; . Y; 并 没有 贡献 。 在 检验 测试 集合 
时 , 样 例 对 于 任意 3X i 都 有 fij(z) > 0 则 将 该 样 例 分 类 到 二 。 实际 情况 下 ,并 不 
是 所 有 的 样 例 都 能 找到 一 个 i 满足 上 述 条 件 ， 此 时 为 了 对 该 样 例 进行 分 类 可 以 放 
宽 该 条 件 : 








fi(z) = > fule) (11.35) 
jd 
放宽 条 件 后 ，fi(z) 结果 依赖 于 所 有 对 Y; 进行 划分 的 判别 式 结果 。 根据 归 类 公理 ， 
可 以 选取 判别 式 f(z),i = 1,2, ,c 中 的 取得 最 大 值 的 类 别 , 将 该 类 指派 给 输入 
样 例 。 











图 11.9 一 对 一 分 类 方法 中 , 每 一 对 类 都 具有 一 个 划分 超 平面 , 即 一 个 判别 式 。 这 
种 情况 下 可 以 看 出 C1 不 是 关于 Co. Cs 线性 可 分 的 , 如 果 一 个 输入 样 例 在 Hio His 
两 个 超 平面 的 正 侧 , 这 个 样 例 就 被 分 类 到 C1, 分 类 时 不 考虑 Hos 的 值 


讨 人 论 

支持 向 量 机 是 一 种 很 特别 的 学 习 算法 。 该 算法 是 依托 于 统计 学 习 理论 推导 出 
的 学 习 算法 , 充分 显示 了 统计 学 习 理论 的 价值 。 由 于 其 解释 性 远 远 好 于 神经 网 络 ， 
其 预测 性 能 又 好 于 同时 期 的 三 层 神经 网 络 , 于 是 , 支持 向 量 机 一 时 成 为 了 机 器 学 
习 的 主流 算法 。 

但 是 支持 向 量 机 有 两 个 明显 的 特点 。 一 个 是 其 出 发 点 是 处 理 小 数据 , 这 导致 
其 在 处 理 大 数据 的 时 候 , 计算 复杂 度 偏 高 。 另 一 个 是 其 解释 能 力 虽 强 , 但 其 类 表 
示 能 力 有 限 。 为 了 提高 其 类 表示 能 力 , 引入 了 核 函数 。 基 于 核 函数 的 支持 向 量 机 
将 在 第 16 章 进 行 讨论 。 即使 引进 了 核 函 数 , 支持 向 量 机 的 类 表示 能 力 还 是 提高 有 
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限 。 同 时, ute e PER ERU SE S FE IRE SECUTI BT LI ZLB (Achilles heel), 至 
今 未 见 很 好 的 解决 方案 。 

因此 , 在 大 数据 时 代 ， 当 表示 能 力 和 预测 性 能 都 远 远 超过 支持 向 量 机 的 深度 
学 习 出 现 之 后 , 支持 向 量 机 的 研究 就 恢复 了 正常 水 平 。 


3 mH 

1. 考虑 一 个 线性 机 , 它 的 线性 判别 函数 是 fi (m) = whe + wio,i = 1,2,--- ,c, 证 明 判定 区 
是 凸 的 , 即 如 果 zl € Ri,» € Ri, IA Azı -(1—3)z2 € R,O& A € 1. 

2. 4 (m, 29, ,ZN} 为 了 维 线性 可 分 的 有 限 样本 集 。 
(1) 给 出 一 个 能 在 有 限 步 内 找到 一 个 分 类 向 量 的 穷 举 法 (提示 : 使 用 分 量 为 整数 值 的 权 向 量 )。 
(2) 求 出 你 的 算法 的 计算 复杂 度 。 

3. $ (21,22, ,ZN} 是 一 个 具有 有 限 线性 可 分 的 训练 样本 集 , 令 对 所 及 都 满足 wwk > 
b 的 向 量 w 为 解 向 量 。 证 明 有 最 小 长 度 的 向 量 是 唯一 的 (提示 : 如 果 存 在 两 个 的 话 , HUC 
们 的 平均 向 量 )。 

4. 如 果 存在 c(c — 1)/2 个 超 平面 , 每 个 hi; 都 将 样本 ri 和 m; 分 类 开 来 , 证 明成 对 线性 可 分 
不 一 定 是 线性 可 分 。 

5. 证 明 从 超 平面 f(z) = wr 十 wo = 0 到 点 ze 的 距离 为 |f(za)|/lwl|， 且 对 应 的 点 是 约束 
条 件 f(x) = 0 下 满足 使 |z 一 zall? 最 小 的 z。 

6. 对 于 软 边缘 超 平面 的 最 优化 问题 包含 松弛 变量 , 形式 为 E 一 DES 现在 考虑 使 用 新 的 


松弛 变量 ,其 形式 为 & 一 xa sd. 
(1) 写 出 该 包含 新 松弛 变量 的 最 优化 问题 的 对 偶 形 式 ; 
(2) i p 二 2 时间 题 是 否 还 是 同 优 化 ? 

T. SVM 的 重要 思想 就 是 寻找 支持 向 量 ， 认 为 不 同 的 样 例 对 分 类 超 平面 的 作用 是 不 同 的 ， 寻 
找 对 构建 超 平面 具有 较 大 作用 的 样 例 。 假设 当 前 的 训练 样 例 由 三 元 组 (zk ue, ps) 构成 ， 
JURO < px < 1 代表 第 上 个 节点 的 重要 度 。 写 出 SVM 原始 问题 的 目标 函数 和 约束 条 
件 。 对 于 错误 分 类 的 样 例 zx 的 惩罚 依赖 于 先 验 pes 在 对 偶 问题 中 加 入 这 项 修改 。 

8. 支持 向 量 机 能 够 达到 较 高 的 分 类 精度 ,但 是 对 于 较 大 的 样 例 集合 分 类 器 训练 过 程 较 慢 。 
讨论 怎样 能 够 有 效 降低 较 大 样 例 集合 的 训练 时 间 。 

9 假设 有 两 类 样 例 点 如 下 


oa (2) (4) 
Wag a) (2) (5) 


在 坐标 系 中 画 出 这 些 点 并 且 寻 找 最 佳 分 离 超 平面 ,计算 支持 向 量 和 间隔 。 
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10. 思考 一 种 过 滤 算 法 , 找到 训练 样 例 中 不 可 能 成 为 支持 向 量 的 样 例 点 , 将 这 些 样 例 点 剔除 。 
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类 内 部 表示 的 各 个 部 分 都 对 分 类 算法 有 重要 影响 , 不 仅 类 的 认 知 表示 会 影响 
分 类 算法 设计 , 类 相似 性 映射 的 不 同 , 也 同样 会 严重 影响 分 类 算法 的 设计 。 即 使 
类 认 知 表示 都 是 线性 函数 , 不 同 的 类 相似 映射 也 会 导致 不 同 的 分 类 算法 。 更 准确 
的 说 法 是 ， 在 已 知 (X,U) E. X 2Y He 1 的 情况 下 , 如 果 预 知 c 个 类 的 类 认 知 
表示 形式 , 有 时 候 人 们 希望 其 类 相似 性 函数 位 于 [0,1] 之 间 , 以 与 人 们 的 直观 保持 
一 致 。 这 时 候 ， 由 于 简单 的 线性 分 类 模型 没有 这 样 约束 类 相似 性 映射 因此 并 不 
满足 需求 , 需要 重新 设计 新 的 分 类 算法 。 本 章 讨论 可 以 满足 这 个 要 求 的 两 个 线性 
分 类 模型 ,一 个 是 softmax 回归 ， 另 一 个 是 logistic 回归 。 


12.1 Softmax 回归 


根据 奥 卡 姆 剃刀 准则 ， 最 好 先 研 究 具 有 简单 形式 的 类 认 知 表示 。 已 经 知 
道 简单 的 线性 分 类 模型 的 类 认 知 表示 是 Vi, Y; = (x, wio + zz)， 其 类 相似 性 
映射 为 Yk, hw Yi) = exp(wio + wp xp) o 但 是 这 并 不 符合 要 类 相似 性 映射 
VkVi, Simy (zy, Yi) € [0,1] 的 要 求 。 一 个 直观 而 又 简单 的 想法 是 将 类 相似 性 映射 
进行 归 一 化 处 理 即 可 , 即 类 认 知 表示 Vi, Y; = (x, wio + wa) 保持 不 变 , 而 类 相似 


性 映射 为 VEVi, Simy (zy, Y;) = p(Yelare) = “explo + uf Tp) 








€ [0, 1]. 
Y exp(wjo + wj Trp) 
j=1 


在 这 种 情况 下 , 要 求 出 最 佳 的 类 认 知 表示 , 可 以 使 用 类 紧 致 性 准则 , 最 大 化 
目标 函数 (12.1): 


N Nie 
L= [[ Simy (xx, Yz) = [[ [ [Simyo Y)"* (12.1) 
k=1 


k—1i—1 


其 中 ， = [|uik]exw ViVk, ui € {0,1}, DS uik =, 
i=l 
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为 了 便于 计算 , 对 目标 函数 (12.1) 取 对 数 , 则 应 该 最 大 化 的 目标 函数 为 式 (12.2): 
N 


nZ = 》 InSimy (zr, Yaz) 
k=1 


N e 
=X >》 ur nSimy (zr, Y;) (12.2) 


k=1 i=1 


= ES Du (vo 十 wt ZK 一 In etn Tw; 12.) 


k=1 i=1 


可 以 通过 梯度 下 降 法 对 式 (12.2) 进行 求解 , 关于 wi 的 偏 导数 为 : 








N 
OlnL exp(w; Trj + wi 
Ou, = 5 UikLk = p( ui o) Tk (12.3) 
f un > exp(uiTzk + wig) 
i=1 


N 
= > mx (uik = Simy (zx, Y;)) 








k=1 
关于 wio 的 偏 导 数 为 : 
N 
OlnL exp (wiT zk + wa 
Owio 一 x Uik c p(w Tr a o) (12.4) 
i = >》 exp(witx, + wio) 
i=1 
N 
= M (we — Simy (xx, Y;)) 


为 了 求 出 Vi, wio, wis 可 以 采用 Newton-Raphson 算法 , 这 要 求 计算 


O21nL a 


Ow;Ow; n EAE 

Oink 

ðw;ðwo — -Yasin x, Y;)Simy (xp, Y;) (12.5) 
OL ui 

ED DE 
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$ p= (Gr, Bo, ++, Be)™, 其 中 pi = (wio, (wa)1, (wi)2, =- , (wi)p), (wa)p 

















Hu Hi c5 Hy 
Leges s m Hy Hə +- Hx . 
表示 向 量 w 的 第 p 个 分 量 。 H = i ; š ， 其 中 Hy => 
Ha He Hec 
mL mL \" 
OwigOwjo Ow;gQw; 
3n L aln L 
ðw;ðwjo ðw;ðwj 
由 此 得 到 在 softmax 回归 算法 中 , 8 的 更 新 迭代 公式 为 : 
OL 
EB—H'-—- 
CE (12.6) 
yep OL (2L OL aL T aL OL AL.» 
808 (BB 08; — AB.) ' AB, — \Awin” Ow J 


Softmax 回归 有 一 个 非常 大 的 特点 ， 其 参数 是 元 余 的 。 这 一 点 可 以 从 公 
X (12.7) 清楚 看 出 , c 组 参数 B1, ba , B. 中 有 一 组 是 元 余 的 。 


exp(wio + wa zy) 

c 
"m 

> exp(wyo + w; rr) 

j=1 








Simy (zx, Yi) 





T T 
exp(wio + wj zy 一 weo — We zy) 
c 
T 7 
> exp(wjo + Wj Ek — Weo — We zx) 
j=l 








(12.7) 


exp(wio — weo + (wi — We) xR) 
c-1 

1+ > exp(wyo — weo + (wj — we) ax) 
j=l 








因此 , 参数 空间 8,85, --- ,Be 满足 maxg In L 的 解 不 唯一 , 实际 上 存在 无 穷 

Bo 根据 奥 卡 姆 剃刀 准则 , 在 这 些 可 能 的 解 中 , 需要 找到 一 个 最 简单 的 。 如 果 定 义 

8 的 复杂 度 为 D(8) = |||? = OO wi 奥 卡 姆 剃刀 准则 要 求 D(B) 也 要 达到 最 
i=1 j=0 


小 。 由 此 , 我 们 应 该 最 大 化 一 个 新 的 softmax 回归 的 目标 函数 (12.8): 
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mz-29(B = Sy niyo Yi Y¥R)- A9(8) 


= ES EXT In Simy (xz, YX)- 00) 


Bt gi 
区 RE 二 
E SR I. Zk— in Doo wo + WI Ek )-53202$ 
k=1 i=1 i=1 j=0 
(12.8) 
其 中 , 入 > 0。 
最 大 化 目标 函数 (12.8) 有 计算 上 的 优点 。 当 p > N 时 , 目标 函数 (12.2) 的 


Hessian 矩阵 H REW, 这 时 8 的 更 新 过 代 公式 (12.16) 实际 上 不 可 用 了 。 实 际 上 
只 要 Hessian 矩阵 H RUA, B 的 更 新 迭代 公式 (12.16) 就 不 可 用 。 显 然 , 目标 函 
数 (12.8) 的 Hessian JE E H 是 永远 可 逆 的 。 因 此 , 用 Newton-Raphson 算法 最 大 
化 目标 函数 (12.8) 永远 是 可 行 的 。 


12.2 Logistic 回归 


本 节 介 绍 logistic 回归 (logistic regression， 有 时 也 称 为 logit regression) 。 
Logistic 回归 是 分 类 中 的 一 个 典型 方法 ， 其 主要 思路 也 是 采用 判别 式 的 思想 ， 将 
输出 类 认 知 表示 用 函数 来 表示 。 但 是 其 与 判别 函数 法 的 重要 区 别 有 两 点 : (1) 有 
一 类 的 类 输出 认 知 表示 未 显 式 表达 ; (2) 每 个 输出 类 的 类 相似 性 映射 是 逻辑 斯 详 
分 布 的 密度 函数 。 

Logistic 回归 中 , 对 于 多 类 分 类 , zk € Xi, W ui 三 1 AVI Æi, ujk = 0。 当 
1«ixc—11W, 第 i 类 的 输出 类 认 知 表示 天 = (x, wpe + wio) 第 c 类 的 输出 类 
认 知 表示 Y, = (x, Fe(z)), Fe(x) 未知 。 当 1 和 i 和 c 一 1 时 , 输出 类 相似 性 映射 由 
公式 (12.9) EX: 





exp(wiTz + wio) 
ed 


Simy (x, Y;) = p(Yi|z) 














1+ 2. exp(w;Ta + wio) (12.9) 
i=1 
X i= chh, 第 c 类 的 输出 类 相似 性 映射 由 公式 (12.10) 定义 : 
Simy (x, Y) = p(Yelz) =i : (12.10) 
1+ D exp(wiTz + wio) 


i=1 
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根据 类 紧 致 准则 , 类 内 的 相似 性 应 该 达到 最 大 , 因此 多 项 logistic 回归 应 最 大 
化 目标 函数 (12.11): 
N 
max L= II Simy (£k, Yaz) 


Yi, Yare ,Ye—-1 
Maru k=1 


= IH IS Ge vo (12.11) 


k=1 i=1 
N c 
= IH pozo" 
k=1 i—1 


为 了 便于 计算 , 对 目标 函数 (12.11) 取 对 数 , 则 多 项 logistic 回归 最 大 化 的 目 
标 函 数 (12.12) Jy: 


us max, = ,nL= 53 In Simy (xx, Yi) 

















k=1 ici 
N c-1 
= =) > unl wi ay + wio) 一 Y» (4 十 Test Tk + vo) 
k=1 i=1 
(12.12) 
可 以 通过 梯度 下 降 法 对 (12.12) 进行 求解 , 关于 wi 的 偏 导 数 为 : 
a „T Jä 
_ Y T zen zy + wig) 
et 1+ > exp(w;Ty + wio) (12.13) 
i=1 
N 
= 3n (ua. = Simy (£r, Y;)) 
k=1 
XT Wio 的 偏 导数 为 : 
OlnL x exp(wiT £k + wig) 
ðwio D VAR c-1 
E ig X exp(w:" zr + wio) (12.14) 
i=1 


N 
= >, (ua — Simy (zx, Y;)) 
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为 了 得 到 ws 和 wio, 计算 








2 N 

Bau: = 一 D ai (wx, Y;)Simy (zy, Y;) 

mL x 

Bp = — Ñ Lau Simy (5, Y;)Simy (zr, Y;) (12.15) 
‘WOW 50 k=1 

ÜR ig 4s yi (a. Y.) 

ÜwigÜwjo - p? imy (zx, Y;)Simy (2x, Y3 


求 出 目标 函数 (12.12) 的 Hessian FAME 五 。 此 处 ， 


Hi Hi /— 5 0 Aye-1) 
Hy Do 5 — Han 
H- : , r š , 
H-1) H(e52 :** A(e-1)(e-1) 








mL ( a InL ) 


其 中 Hy = ðwioðwjo OwjgOw; 
nL Pind 
Owj;Owjo OQw;Qw; 


4 B — (Bi, Bo,… , B5 1) HEP Bim (wo, (wi)1, (oa (ui)p) (wi)p 表示 

向 量 wi 的 第 p 个 分 量 。 由 此 得 到 在 logistic 回归 算法 中 , 8 的 更 新 迭代 公式 为 
ôL 
B—8-—H "88 (12.16) 

通过 牛顿 法 更 新 迭代 就 可 以 得 到 w; 和 wios 进而 得 到 Simy (x, Yi), 这 样 对 新 
的 测试 样本 可 以 通过 这 个 函数 计算 得 到 与 每 类 的 相似 度 , 在 其 中 选择 最 大 的 一 个 
类 作为 该 样本 所 属 的 类 别 。 

Logistic 回归 中 ,第 c 类 的 类 认 知 表示 并 没有 显 式 给 出 ,只 是 作为 其 他 c 一 1 
类 的 对 照 类 , 而 其 他 c 一 1 类 的 类 认 知 表示 是 在 第 c 类 的 比 对 基础 上 确定 的 。 


W it 
Softmax 回归 与 logistic 回归 主要 的 区 别 有 两 个 : 一 是 softmax 回归 中 , 每 类 


的 类 认 知 表示 都 是 确定 的 ; logistic 回归 中 , c 一 1 类 的 类 认 知 表示 是 在 与 第 c 类 的 
认 知 表示 的 比 对 中 确定 的 ,而 第 类 的 认 知 表示 是 未 知 的 ,可 以 是 任何 形式 。 简 
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单 地 说 , 第 c 类 的 认 知 表示 对 于 logistic 没有 影响 , 有 兴趣 的 读者 可 以 去 证 明 这 一 
Kio Alt, logistic 回归 又 称 为 对 数 几率 回归 。 二 是 softmax 回归 适用 于 互 斥 的 分 
类 问题 , logistic 回归 可 以 用 于 非 互 斥 分 类 问题 。 

Softmax 回归 分 类 模型 与 logistic 回归 分 类 模型 的 联系 是 : 如 果 从 标准 Soft- 
max 回归 分 类 模型 消除 多 余 参数 ,就 自然 导出 logistic 回归 分 类 模型 。 

本 章 的 讨论 说 明 ,， 类 相似 性 映射 在 分 类 算法 的 设计 中 , 并 不 是 一 个 可 有 可 无 
的 角色 。 在 类 认 知 表示 相同 的 情况 下 , 不 同 的 类 相似 性 映射 可 以 导出 完全 不 同 的 
分 类 算法 。 同时, 在 类 认 知 表示 形式 确定 的 情况 下 , 可 以 利用 类 相似 性 函数 表示 
一 点 不 确定 性 。 这样， 对 数 线性 分 类 模型 具有 两 个 重要 的 特点 : 一 是 类 认 知 表示 
是 确定 性 的 , 不 含 未 确定 因素 ; 二 是 类 相似 函数 可 以 用 伪 后 验 概率 密度 表示 , 具 
有 一 定 的 不 确定 信息 。 一 个 比较 确切 的 说 法 是 ,对 数 线性 分 类 模型 处 于 确定 性 分 
类 模型 和 概率 型 分 类 模型 的 交界 处 。 








习 题 
L ip» NBL, 定义 的 复杂 度 为 O(P) = Bl = Y X lwah 根据 类 紧 到 性 准则 和 奥 
An 


卡 姆 剃刀 准则 ,， 可 以 得 到 softmax [FLA fiic H PREK Z In L — AS (8), 试 求 softmax 
回归 的 稀疏 版 算法 。 


2. "p NI, 定义 6 的 复杂 度 为 5(B) = |||] = $ S [wis], 根据 类 紧 致 性 准则 和 奥 
i=1 j=0 


卡 姆 剃刀 准则 , 可 以 得 到 logistic 回归 的 稀疏 版 目标 函数 InL 一 和 (5), 试 求 logistic 回 
归 的 稀疏 版 算法 。 
3. 试 证 明 softmax 回归 、logistic 回归 存在 单 类 回归 模型 的 解释 。 
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第 13 章 ” 贝 叶 斯 决策 


KAFA ARAR, 其 子 日 : TA, LHA E”. 其 令 人 之 父 亦 
云 。 莫 而 果 大 亡 其 财 。 其 家 甚 智 其 子 ， 而 疑 邻 人 之 父 。 
一 一 韩非子 《韩非子 。 说 难 》 


在 前 面 讨论 分 类 的 章节 里 ,一 直 假设 类 表示 独立 于 样本 的 抽样 分 布 。 在 现实 
生活 中 ,这样 的 学 习 任务 很 多 。 比 如 ,要 学 习 什 么 是 树 ， 什 么 是 猫 ， 显 然 希望 学 
到 的 东西 能 够 明确 反映 事物 的 本 质 特 性 ， 与 用 来 训练 的 树 和 猫 的 样本 抽样 分 布 应 
该 理论 上 无 关 。 但 是 , 同样 存在 某 些 学 习 任 务 ， 人们 期 望 从 训练 集 学 习 的 就 是 训 
练 集 的 样本 抽样 分 布 ， 比 如 希望 知道 某 一 地 区 性 别 分 布 情况 ， 某 一 地 区 某 一 时 间 
段 的 天 气 情况 等 等 , 这 时 候 由 于 人 们 未 必 知 道 也 不 一 定 需 要 知道 其 背后 的 本 质 原 
Dj, 给 出 事物 发 生 的 概率 分 布 就 够 了 。 这 就 是 所 谓 的 不 确定 性 学 习 问题 。 在 本 书 
的 单 类 学 习 问 题 中 ,已 经 研究 了 单 类 的 密度 估计 问题 。 现 在 ， 需 要 研究 多 类 的 密 
度 估计 问题 。 显 然 , 对 于 多 类 密度 估计 问题 , 样本 归 类 不 再 是 一 个 确定 问题 , 而 是 
一 个 典型 的 不 确定 性 情形 下 的 决策 问题 。 

对 于 不 确定 情形 下 的 归 类 决策 ， 贝 叶 斯 理论 框架 是 一 个 成 熟 的 方案 。 本 章 将 
在 归 类 公理 体系 下 重新 论述 贝 叶 斯 决策 论 。 主 要 分 为 几 个 部 分 , 包括 贝 叶 斯 分 类 
器 、 最 小 风险 分 类 器 和 最 大 效用 分 类 器 。 








13.1 ” 贝 叶 斯 分 类 器 


根据 前 面 的 分 析 , 假设 输入 (X,U, X, Simx) 中 类 的 输入 认 知 表示 是 并 = 
{X1, Xs, Xp 其 中 , 每 个 输入 类 认 知 表示 是 一 个 密度 函数 , 即 X; = Pi(z) = 
p(z|X;). pi(z) 是 RP 中 的 一 个 随机 变量 z 的 密度 函数 ，z 是 对 象 o 的 输入 特 
征 表 示 , X = [zrk]jpxN，Simx(z,Xi) = aipi(z). 其 中 a; 表示 第 i 类 发 生 的 概 
率 a; = p(Xi). pilx) 表示 第 输入 类 中 r 发 生 的 概率 ， 即 p(z|Xi)。 对 于 训练 
集 (X,U), 假设 和 = {11,12 ,ZN}，Zk 为 第 上 个 训练 样本 on 的 输入 特征 表 








176 机 器 学 习 : 从 公理 到 算法 





m (k € {1,2,---,N}) H zr € RP, 对 应 的 类 标 集 U = {ur,u2,---, un}, ux 为 
第 k 个 训练 样本 OK 的 输入 类 标 (uk € R5); 这 里 uk = [Uik, uox. * ee Ult; 如 果 


rp € Xis 则 ux, = 1, 否则 ， Uik = 0， 同时 ， Y us =1。 
i=1 
类 似 地 , 输出 (Y, V, Y, Simy) rP fti H2 Ate Y. = (Yu Yo, Ye}, 


其 中 , 每 个 输出 类 认 知 表示 是 一 个 密度 函数 , BUY = p)» pil) È R* rf 
随机 变量 y 的 密度 函数 ,y 是 对 象 o 的 输出 特征 表示 ,了 = [vena Simy (y, Y) = 
&p(y). SCP d; 表示 第 ;输出 类 发 生 的 概率 A = pY) py) 表示 第 i 输出 类 
E y REWER, yi 为 第 大 个 训练 样本 or 的 输出 特征 表示 (k € {1,2,… ,NN}) 
H y, € RY, 对 应 的 类 标 集 V = [vi v2, UN} Uk 为 第 天 个 训练 样本 on 的 
输出 隶属 度 (wk € Re), 3X HL w = [vis vox Ver)?» HP vin = p(Yilyx), 同 
时 ， Soom = 1. WE i = arg max; P(Y; ly). 则 判断 对 象 。 属 于 第 i 类。 这 样 一 个 
i=1 
表示 是 最 一 般 的 贝 叶 斯 分 类 器 。 


根据 贝 叶 斯 定理 , p(Y;|yx) = c 。 由 此 , RTI arg max; Simy (y, Yj) = 
i th 
p(y|Y;) PQ(;) 
p(y) 











arg max; p(yl¥;)p(¥j) = max; arg max; p(Y;ly). Ul, 归 类 等 价 


公理 对 于 贝 叶 斯 分 类 器 是 成 立 的 。 

BX =Y, WH y = x, Vi p(y) = p), Vk, ye = zi G(= P(Y,)) 是 对 于 
ai(= P(Xi)) 的 估计 ， nx) 是 对 Pi(z) 的 估计 。 这 里 需要 指出 的 是 , Vi, X; = Y; 
一 般 不 成 立 。 因此 , 为 了 方便 , 在 不 引起 混淆 的 情况 下 , 继续 保留 Y, 来 代表 输出 
第 i 类 。 由 于 是 不 确定 决策 , V 不 是 硬 划分 , 因此 也 需要 学 习 。 但 是 如 果 学 习 到 
(Y, Simy), 根据 上 面 的 分 析 , 可 以 知道 V 可 以 直接 计算 得 到 。 故 此 时 的 分 类 问题 
学 习 (Y, Simy) 也 足够 了 ,其 中 (X,U) AIZA, (Y, Simy) 为 待 学 习 的 分 类 
器 , 其 中 Simy (y, Yi) = Simy (z, Y;). 当然 , 也 可 以 直接 学 习 到 VV, 这 对 于 贝 叶 其 
分 类 器 也 足够 了 。 

根据 以 上 的 分 析 ， 对 于 贝 叶 斯 分 类 ， 得 到 p(w) 和 P(X;i) 的 估计 pil) 和 
P(Y;) 或 者 p(Xj|z) 的 估计 pOr) 是 最 重要 的 ， 显然 这 是 密度 估计 问题 。 因 此 ， 
采用 不 同 的 估计 p;(z) 和 P(Xi) 或 者 p(Xj|z) 的 方法 , 可 以 得 到 不 同 的 贝 叶 斯 分 
类 器 。 在 本 章 中 , 选择 最 简单 的 贝 叶 斯 分 类 器 即 朴素 贝 叶 斯 分 类 来 说 明 归 类 。 

















13.2 ”朴素 贝 叶 斯 分 类 


假设 输入 特征 空间 中 的 每 个 特征 只 取 有 限 离散 值 , 则 可 以 通过 参数 密度 估计 
得 到 P;(x) = P(z|Xi) 和 P(Xi;) 的 估计 PB(z) Al P(Y;). 注意 到 训练 集中 的 样本 一 
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BARR, 而 维 数 灾难 问题 告诉 人 们 ， 当 输入 空间 维 数 变 大 时 , 输入 特征 空间 中 的 
所 有 不 同 离散 值 个 数 远 远 多 于 样本 数 , 即 训练 集中 的 样本 相对 于 特征 空间 来 说 一 
般 是 过 于 稀 琉 的 ， 因 此 ,非常 多 输入 特征 空间 中 的 元 素 并 没有 训练 集中 的 样本 落 
入 其 中 。 在 这 种 情况 下 ,如果 直接 进行 密度 估计 , 许多 xz 对 应 的 PB(z) 为 零 。 显 
JR, 这样 的 估计 偏差 太 大 。 

为 了 解决 这 一 问题 ,人 们 假设 不 同 维 的 特征 彼此 独立 于 类 标 。 在 此 假设 
下 ， 先 对 每 一 维 进行 密度 估计 ， 然后 根据 独立 性 条 件 ， 将 每 一 维 的 密度 估计 
相 乘 得 到 密度 估计 已 (z)。 这 就 是 朴素 贝 叶 斯 分 类 算法 。 i ie 假 





设 当 给 定 X; 时 每 个 特征 之 间 是 独立 的 ， 则 Pa = [LP ),IY;). PAE 
Simy (x, Y;) = P(Y;)P(v|Y;) = Y) H PCY- 一 旦 给 定 xz, 可 以 利用 估计 


P((z),|Y;). 其 中 (x), 表示 c 的 第 ， 个 特征 的 特征 值 。 

在 朴素 贝 叶 斯 中 , 特征 条 件 独立 假设 指数 据 的 所 有 特征 变量 都 条 件 独立 于 
类 变量 , 即 每 一 个 特征 变量 都 以 类 标号 变量 作为 唯一 父 节点 , 分 类 模型 如 图 13.1 
所 示 。 





图 13.1 朴素 贝 叶 斯 分 类 模型 结构 


具体 地 , 随机 向 量 z = ((z)1,(z)2,… ,(z)p)"，(z)1, (z)2,… ,(z)p E p AA 
同 的 特征 , 可 以 看 作 p 个 随机 变量 。 车 假设 (z)1, (z)2,… , (z)s 是 相互 独立 的 ， DUI 
P(x|Y;) 可 以 化 简 为 


P(z|Y?) = P((a)1,(#)2,°*- ()4Y) = [[ PY (13.1) 


朴素 贝 叶 斯 分 类 中 各 特征 变量 独立 地 作用 于 类 变量 , 忽略 了 特征 之 间 的 条 
件 依赖 关系 ,大 大 提高 了 运算 效率 和 计算 的 可 行 性 。 将 公式 (13.1) 代入 类 相似 
性 映射 ,根据 归 类 公理 可 知 可 以 进行 归 类 决策 。 设 第 个 特征 (x), 的 特征 值 集 
合 是 {ar1, ar2， RSR T SE 如 何 估计 分 布 P(Y;) All P(aj|Y;) = P((x),. = art |Yi) > 
就 是 朴素 贝 叶 斯 分 类 算法 中 的 关键 。 其 中 , r= 1,2,--- ,p; 1=1,2,---, Sp i 二 
和 

下 面 介绍 两 种 估计 方法 。 
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13.2.1 最 大 似 然 估计 
显然 ， 当 训练 集 给 定之 后 ,类 紧 致 性 准则 希望 得 到 具有 最 大 类 内 相似 性 的 类 
表示 , 由 此 ,可 以 得 到 公式 (13.2): 


N N c 
max I[Smv( Yz) = max [[[ [ Simy (c. Y)» 


UT kl k=1i=1 


N ce 
= max [TT[ Pep” 
Z x i=1 
p Uik 
Ee | (w; o DIEA sno) 
^5 k=1li=1 r=1 
N c P S. "n 
- max [T TI (ne [Piei em a) 
k=1i=1 r=11=1 


(13.2) 


c S, 
其 中 ， Zp) =1, 2 P(ari|¥i) = 16 
i= =1 
正如 第 3 章 所 指出 的 那样 , 最 大 化 目标 函数 (13.2) 就 是 文献 中 的 最 大 似 然 估 
计 方 法 。 换 句 话说 , 最 大 似 然 估 计 方 法 是 类 紧 致 性 准则 的 特例 。 同 样 根据 第 3 章 
的 类 似 推 寻 ,可 以 知道 类 发 生 的 概率 P(Y;) 可 以 由 公式 (13.3) 来 表示 , 条 件 概 
率 P(anlY:) = P((z)v = anlY;) 可 以 由 公式 (13.4) 来 表示 : 


N 
> Uik 


P(Y) = =y ; 4d212,-,c (13.3) 








N 
X (Trk — Grt)Uik 
P(a|Y;) = P((z), = a4|Y;) = —, 
Y ix 
k=1 


r=1,2,---,p) 1=1,2,---,5,5 t=1,2,---,¢ 








(13.4) 


其 中 , 6() 是 Kronecker 函数 。 


例 13.1 表 13.1 是 一 个 名 词性 数据 集 , 每 一 个 数据 包括 五 个 特征 和 一 个 类 
标记 。 特征 Fl 有 三 个 属性 值 {s, 0, r} 特征 F2 有 三 个 属性 值 {h, m, cj, 特征 F3 
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有 两 个 属性 值 (h, n), 特征 F4 


有 两 个 属性 值 (6, f}, 特征 F5 有 两 个 属性 值 {d, 





r). 类 标 Class 有 两 种 {L1, L2}。 假 设 五 个 特征 是 相互 独立 的 ， 由 该 数据 集训 练 一 
个 朴素 贝 叶 斯 分 类 器 并 确定 z = (s,m, h, t, d) 的 类 标 。 




















表 13.1 ”只 具有 名 词性 特征 的 数据 集 
NO. F1 F2 F3 F4 F5 Class 
1 s h h f d L2 
2 s h h t d L2 
3 o h h f d L1 
4 r m h f d L1 
5 r c n f d L1 
6 r c n t d L2 
7 o € n t d L1 
8 s m h f d L2 
9 s e n f d L1 
10 T m n f d L1 
11 s m n t f L1 
12 o m h t r L1 
13 o h n f r L1 
14 r m h t Y L2 
15 r m n f r L1 
16 s m n t r L1 
17 o m h t f Li 
18 o h n f id L1 
19 r m h t L2 
20 E ic n t id L2 








通常 类 标 如 表 13.1 中 记述。 一 般 地 ， 如 果 类 标 集 工 有 ce 个 类 标 ， 不 妨 设 为 
L1, L2, ---, Le, 则 知道 P(Y;) = P(Y;) = P(Li), P(ar|¥i) = P(x), = au|Y;) = 
P(aj|Li). Hk, 对 表 13.1, 则 可 记 P(Y1i) = P(L1), P(Y2) = P(L2), P(a.Y1) = 
P((x), = ari/¥1) = P(ar|L1), P(ari|¥Y2) = P((x), = arı|Y2) = P(ari|L2), 类 标 集 


0 0 f £i t Q0 1 
1100010 





P4. 1 FOX 108 E GE P A 
1000001000011J/' 


据 以 上 的 符号 , 由 表 13.1 得 到 的 朴素 贝 叶 斯 分 类 如 下 : 

















解 首先 , 将 表 13.1 PA 





E 简 记 如 下 , (x)1€{s,0,7}, (x) € {h, m, c}, (x)3€ 


{hn}, (x), € (&5 f} (x); € {dr}, (wg € {L1,L2}。 根据 表 13.1 和 朴素 贝 叶 斯 
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法 , 可 以 假设 y 是 输出 类 Ys 的 类 名 , 容易 计算 下 列 概率 : 


P(e) = sL) = =, 


P((z) —r|L1) = 


P((z), = olL1) = É 


P((z), = hILl) = È 


13 








i 13 
Ple) = mlLl) = i. Peh = di) = 3 
P(x), = h|L1) = a P((z), = n|L1) = z 
Pehi, P(e), = fl) = 
Peh =d) =, Pehr) = 4 
P((z), = s|L2) = P((z), = o[L2) =0 
P(e) 529-2, P(e) =AL) = 2 
P((z), = m|L2) = * P((z), = clL2) = z 
P((z)y = AIL2)= 3, P((2), = nL?) = 2 
P(z.-112)-2, P(e = f2) =3 
P((z)s = di2) =4,  P((2), = rL) =È 


对 于 给 定 的 z = (s,m, h, t,d) 计算 : 
Simy (z, Y1) = P(L1) x P((z)i = s|L1) x P((«)2 = m|L1) 


x P((z)s = h|L1) x P((z)4 = tlL1) x P((z)s = d|L1) 
13. 3 7 4 5 6 196 
20 B 13 B 13 B ~ 134 
Simy (z, Y2) = P(L2) x P((x)1 = s|L2) x P((«)2 = m|L2) 
x P((x)3 = h|L2) x P((x)4 = t|L2) x P((x)s = d|L2) 
7 3 3 2 5 4 18 
20 77" 7*7* 7*7 
根据 归 类 公理 , 可 知 z= (s, m, h, t,d) 的 类 标 是 L2. 




















HAE = (o,m,n,t,7) 求 其 类 标 , 注意 到 P(x), = olL2) = 0, 因此 


Simy (x, Y2) = 0, 而 Simy (x, Yi) > 0, 所 以 给 定 样 例 的 类 标 一 定 是 L1。 





[1 
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13.2.2 ” 贝 叶 斯 估计 


如 果 训 练 集 中 某 些 特征 值 如 ar 始终 未 出 现在 样 例 之 中 , 用 最 大 似 然 估计 
容易 出 现 所 要 估计 的 概率 值 Vi P(au|Y) = P((z)。 = anlY:) 为 0， 因 此 使 得 
Vi, Simy (x, Y;) = 0。 这 会 忽略 其 他 特征 对 分 类 的 影响 , 使 分 类 产生 严重 偏差 。 拉 
普 拉 斯 最 早 提出 了 做 最 大 似 然 密度 估计 时 , 在 分 子 分 母 同时 加 入 一 个 正常 数 这 一 
个 方法 ， 该 方法 可 以 在 一 定 程度 上 削弱 训练 集中 特征 值 缺失 的 影响 ,通常 称 为 拉 
普 拉 斯 平滑 方法 , 其 公式 为 式 (13.7) 和 式 (13.8)。 这 种 方法 的 本 质 思想 是 假设 未 
出 现 的 特征 值 以 一 个 特定 的 先 验 概率 出 现 , 将 这 种 思想 加 以 普遍 化 , 就 是 所 谓 的 
贝 叶 斯 估计 。 

具体 方法 是 假设 人 们 对 于 类 输入 认 知 表示 X GR iW Xa. 根据 类 一 致 性 
准则 , WEY RET Xo 越 好 , RABY 5 Xa 越 相似 越 好 , BU Sim(Y, Xe) RA 
越 好 。 考虑 到 了 的 性 质 可 由 P(Y), PlanlY:) i=1,2,…,c; r=1,2,--- ps l= 
1,2,… ,Sr 反映 ， ee Oi» Oru» i = 1,2, ,Cc; r = 
1,2,… ,p; 1=1,2,--- Sp» 这 里 的 0;, Oru 为 已 知 常数 。 

同样 地 , 根据 第 3 章 的 分 析 , 可 以 假设 Sim(Y, Xa) 由 公式 (13.5) 定义 。 


Sim(Y, Xa) = p(Y|Xa) 


Fe aj-1 re 
I(o1):--T(a.) ac); I "ER I Tora) (arsi) — (13.5) 


Sr 


x [I Plany 


l=1 


t= Qrli 








t- Sr 
其 中 vi, 0; — i ao X a, Vl Orii = S. Ori = | Oli 
i = Ori’ l=1 


A BOE CHEE, 需要 最 大 化 式 (13.2)。 而 类 一 致 性 准则 要 求 最 大 化 
式 (13.5). 综合 以 上 要 求 , 需要 最 大 化 目标 函数 (13.6)。 
N 
Sim(Y, Xa) [ [ Simy (wre, Yz) 
k=1 


= ro) ran LPO y" “Waa oo Treme a 


(arsi 


P 


2 Il Ioco Il Il P (ayy |¥;)8@r# Ar) )uix 


k=1i=1 r=11=1 


(13.6) 
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正如 第 3 章 所 指出 的 那样 , 最 大 化 目标 函数 (13.6) 就 是 文献 中 的 贝 叶 斯 估计 
方法 。 根据 第 3 章 , 可 以 得 到 公式 (13.7) 和 公式 (13.8)。 


N 
a —1+ Yo wk 
k=l 

















P(Y;) iia $= 1,2,+-« 5e (13.7) 
N 
Oni 一 工 十 D Ô(Trk 一 ari )Uik 
P(anlY;) = P(G), = anl¥;) E. " 
Ori — Sp Y ua. ( " 
k=1 


r=1,2 e pj 1=1,2,--- Si = 1,2, ,0 


如 果 令 VivrVl,o; — 1 = ou; —1 = 和 ,由 公式 (13.7) 和 公式 (13.8) 可 以 推出 
常见 的 贝 叶 斯 估计 公式 (13.9) 和 公式 (13.10). 


N 
入 十 + Uik 
k=1 








SO)= Se a? =1,2,---,c (13.9) 
N 
A+ 396. — Art) Uik 
Py (ari|¥;) = P(e), = aulY;) EE 
Ty" (13.10) 
k=1 


r=1,2,---,p, 1=1,2,---,5,; t=1,2,---,¢ 


SUH A > 0, 4 A = 0 时 贝 叶 斯 估计 退化 为 最 大 似 然 估 计 。 一 般 贝 叶 斯 估计 中 , 取 
入 三 工时 ， 贝 叶 斯 估计 变 为 拉 普 拉 斯 平滑 (Laplace smoothing) 估计 。 拉 普 拉 斯 平 
滑 估 计 是 贝 叶 斯 分 类 中 常用 的 一 种 估计 方法 。 在 训练 数据 集 很 大 时 ， 对 每 个 计数 
加 1 对 概率 估计 影响 较 小 , 却 可 以 避免 概率 为 0。 

以 上 假设 特征 值 是 离散 情形 。 对 于 特征 值 是 连续 的 情形 , 可 以 同样 处 理 。 需 
要 指出 的 是 ,如果 令 Sim(Y, Xa) = T] Poe hi P(a,|Y;)^7«7*, 依据 归 


类 理论 此 时 依然 要 最 大 化 公式 (13.6), 也 能 得 到 与 公式 (13.7) 和 公式 (13.8) 完全 
相同 的 结果 , 但 由 于 此 时 的 Sim(Y, Xa) 不 再 对 应 概率 分 布 , 这 时 就 不 能 完全 由 概 
率 论 来 解释 ， 更 不 用 提 贝 叶 斯 估计 了 。 
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13.3 ”最 小 化 风险 分 类 


理论 上 , 任何 样本 都 可 以 被 贝 叶 斯 分 类 器 分 到 某 类 。 对 于 分 类 问题 ， 类 唯一 
性 公理 通常 不 成 立 , 一 定 存 在 会 被 错 分 的 样本 。 但 是 , 众所周知 , 在 有 些 应 用 中 ， 
样本 分 到 各 个 类 的 错误 代价 不 一 定 相 同 ， 有 时 差别 极 大 。 比 如 , 将 国家 一 级 文物 
错 分 成 厦 品 与 将 国家 一 级 文物 错 分 成 国家 二 级 文物 造成 的 后 果 可 能 截然 不 同 ， 其 
风险 也 大 不 相同 。 因 此 , 设计 类 相似 性 ( 相 异 性 ) 映射 必须 考虑 错 分 成 本 , 使 得 错 
分 成 本 最 小 的 类 相似 性 最 大 , 或 者 类 相 异 性 最 小 。 

根据 以 上 的 分 析 ， 记 输入 实际 属于 X 却 输出 属于 Y; 而 导致 的 损失 或 者 成 本 
为 Mi， 样本 ac 指派 到 Y; 的 风险 (或 者 成 本 、 损 失 ) 为 R(Yi|z)， 容易 知道 R(Yi|z) 
可 以 由 公式 (13.11) 定义 : 











R(Yilz) = Y NiP(Xjlz) (13.11) 
j=l 
因此 , 根据 归 类 公理 ， 如 果 认 为 一 个 样本 属于 类 i, 则 该 样本 判断 为 类 i 的 风 
险 应 该 最 小 , 由 此 定义 样本 z 5528 Y; 的 类 相 异 性 映射 为 指派 到 类 Y; 的 期 望 风 险 : 
Dsy (y, Y;) = Dsy (x, Yi) = R(Y;|x) (13.12) 
根据 样本 可 分 性 公理 可 知 ， 每 个 样本 指派 到 相 异 性 最 小 的 类 中 , 因此 , 可 得 
样本 ac 的 类 预测 函数 如 下 : 








argmin;Dsy (x, Y;) = argmin, R(Y;|x) (13.13) 
假设 采用 0-1 损失 , 即 分 类 错误 损失 或 者 风险 为 1, 分 类 正确 损失 或 者 风险 为 
0, 则 Aj 可 以 如 下 定义 : 
se t i=j (13.14) 
1, i#j 


X (13.14) 表明 正确 分 类 没有 损失 , 错误 分 类 代价 相同 。 最 小 风险 分 类 的 最 终 
目标 是 学 习 类 预测 函数 ， 其 中 RY; |x) 可 写 为 下 式 : 


R(Yi|r) = 2. Aj P(Y;lz) 
_ 5 Pega (13.15) 


jzi 
=1—P(Yilz) 
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因此 , 在 0-1 损失 下 ， 此 时 的 最 小 风险 分 类 与 基于 最 大 后 验 的 贝 叶 斯 E. 
Fo HR, WR Ai 固定 但 不 是 0-1 损失 , 最 小 风险 分 类 的 最 终 目 标 也 是 
P(Yi|z), 但 此 时 的 最 小 风险 分 类 与 基于 最 大 后 验 的 贝 叶 斯 分 类 器 并 不 等 价 。 
一 般 情况 下 , 最 小 风险 分 类 并 不 总 是 0-1 损失 。 在 有 些 情况 下 , 错误 的 分 类 会 
有 很 高 的 代价 ， 如 在 自动 驾驶 中 , 将 车 道 前 方 有 白色 的 车 辆 误 判 为 前 方 无 车 而 加 
E 显然 是 代价 极其 高 昂 的 错误 。 因 此 , 如 果 对 分 类 正确 与 否 把 握 较 低 时 ， 需 
一 个 更 复杂 的 分 类 规则 。 通常 定义 一 个 附加 的 拒绝 或 疑惑 类 丈 +1， 用 来 表示 做 
DN E. 如 果 输 入 实际 属于 X; 却 输出 属于 Yopi 而 导致 的 损失 或 者 成 


本 为 genas 此 时 的 分 类 损失 记 为 R(Voqs |) = 2 Mep Pla). 


根据 样本 可 分 性 公理 ， 附加 拒绝 美的 最 小 风险 分 类 的 最 优 分 类 决策 是 : 

(1) Vi € (1,2,---,c), FEY, JEEP j Ai R(Yi|z) < R(Yj|x), 并 
R(Yi|z) < R(Yerilz); 

(2) 选择 拒绝 类 Your, 此 时 R(Youilx) < R(Yi|z), i = 1,2,--- ,c. 

特别 地 ， 如 果 定 义 损失 函数 为 : 








0, i=j 
Aji = À, i=c+1 (13.16) 
1, i£zgj 


其 中 0 < 和 <1 是 选择 第 c 十 1 个 拒绝 类 导致 的 损失 , 则 拒绝 的 风险 是 
R(Y.lz) = Yon |x) = (13.17) 
Vi € {1,2,--- ,c}, 选择 类 Y; 的 风险 是 : 


R(Y;|z) pL |z) 
= S P(Y;lz) (13.18) 


jzi 
-1- P(Y¥i|x) 
如 果 给 定 上 述 损失 函数 Aga 样本 可 分 性 公理 给 出 的 最 优 分 类 规则 简化 为 : 


(1) F Y; Iti j Z idi P(Yilz) > P(Yj|x), 并且 P(Yilz) > 工 一 和 ; 
(2) 选择 拒绝 类 Yous REI A  1— P(Yi|x), i=1,2,--- c 
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当 入 = 0 时 , 总 是 选择 拒绝 类 ; 选择 拒绝 类 和 正确 类 后 果 一 样 。 当 入 > 1 时 ， 
从 不 选择 拒绝 类 。 选择 拒绝 类 与 错误 类 的 代价 相同 甚至 超过 错误 类 的 代价 。 当 
0< 入 < 工时 , 总 是 选择 代价 小 的 分 类 , 选择 拒绝 类 比分 错 类 结果 要 好 一 些 。 


13.4 ”效用 最 大 化 分 类 


在 现实 生活 中 ， 有 时 分 类 错误 成 本 很 低 ， 一 旦 分 类 正确 收益 (或 者 效用 ) 很 
大 。 如 买 彩票 , 一旦 失败 了 , 个 人 损失 就 几 块 钱 ; 一 旦 买 中 了 ， orn 
REFIK. 搜索 引擎 推荐 、 广 告 推送 甚至 部 分 科学 实验 等 也 具有 这 类 特点 。 

此 ， 在 某 些 特定 应 用 中 , 希望 找到 最 大 化 分 类 收益 的 分 类 决策 。 acts 
设计 类 相似 性 映射 时 必须 考虑 正确 分 类 的 收益 (或 者 效用 )。 

记 输 入 实际 属于 Xi 却 输出 属于 而 导致 的 效用 或 者 收益 为 Ujio 样本 m 
指派 到 Y; 的 效用 (或 者 收益 ) 为 Ui la), 容易 知道 U(Yi|z) 可 以 由 公式 (13.19) 
定义 : 

U(Yilz) = ores |x) (13.19) 


由 此 , 将 样本 z 与 类 Y; 的 类 相似 性 映射 定义 为 期 望 效用 : 
Simy (y, Yi) = Simy (x, Y;) = U(Y;|z) (13.20) 


在 这 样 定义 类 相似 性 映射 的 时 候 ， 期 望 效用 最 大 化 分 类 即 是 将 样本 指派 到 具 
有 最 大 类 相似 性 映射 的 类 中 ,也 是 采用 期 望 效用 最 大 的 分 类 决策 。 这 与 样本 可 分 
性 公理 是 一 致 的 , 即将 相似 性 最 大 的 类 作为 样本 的 指派 。 由 此 ,可 得 样本 z 的 类 
预测 函数 如 下 : 
arg max Sim(r, Y;) = arg max U(Yi|z) (13.21) 


更 细致 的 研究 留 给 读者 ， 比 如 最 大 化 效用 分 类 与 最 小 化 风险 分 类 之 间 的 关系 
等 。 显然 , 在 不 同 的 应 用 中 , 可 以 货币 化 定义 损失 Aji 或 者 效用 Ujio 


i} de 
对 于 贝 叶 斯 决策 来 说 ,重要 的 不 是 知道 事物 发 生 的 本 质 因 素 ， 而 是 事物 发 生 
的 概率 。 比 如 , 在 各 种 赌博 游戏 中 , 我 们 不 必 知 道成 功 与 失败 发 生 的 本 质 因 素 , 只 
需要 知道 各 种 情况 下 成 功 与 失败 的 几率 就 够 了 。 又 如 对 于 天 气 预报 , 一 般 人 可 能 
不 会 关心 明天 下 不 下 雨 的 本 质 因素 , 但 会 关心 明天 下 雨 的 概率 是 多 少 。 显然 , 对 
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于 普通 人 , 知道 明天 下 雨 的 概率 也 就 足够 了 。 而 在 日 常生 活 中 , 这 样 的 应 用 很 多 。 
这 也 是 贝 叶 斯 决策 应 用 普遍 的 原因 。 

但 是 ， 贝 叶 斯 决策 需要 计算 P(e|Y;) (离散 情形 下 ) 或 者 p(r|Y;) (连续 情形 
TO, 这 通常 会 面临 组 合 爆 炸 、 样 本 稀疏 问题 。 为 了 避免 或 者 弱化 这 一 问题 , 人 们 
引入 了 各 种 属性 依赖 关系 对 于 计算 P(z|Y;) (离散 情形 下 ) 或 者 p(c[Y;) (连续 情 
形 下 ) 进行 简化 。 显 然 ， 这 些 属性 依赖 关系 在 现实 应 用 中 往往 不 能 成 立 或 者 很 难 
验证 ,比如 属性 条 件 独立 性 假设 . 但 是 人 们 以 前 奇怪 的 是 , 这 些 简化 条 件 在 很 多 
应 用 中 表现 良好 。 其 中 一 种 解释 是 , 只 要 各 类 别 的 条 件 概率 排序 正确 、 无 须 精 确 
概率 值 即 可 导致 正确 分 类 后， 这 显然 与 本 书 中 提出 的 样本 可 分 性 公理 一 致 。 实 际 
上 所 有 的 贝 叶 斯 分 类 都 遵从 归 类 公理 ， 但 本 书 中 只 有 具体 研究 了 朴素 贝 叶 斯 分 类 
器 。 更 多 的 贝 叶 斯 分 类 算法 ,中 文 材料 请 参考 文献 2]， 英 文 材 料 请 参考 文献 [3]。 

同时 ， 贝 叶 斯 决策 属于 典型 的 白 箱 算法 ， 解 释 性 极 佳 ， 其 表示 能 力 虽 强 但 始 
终 受到 计算 能 力 的 限制 ,或 者 说 人 们 尚未 找到 一 种 强 有 力 的 计算 方法 可 以 充分 利 
用 贝 叶 斯 决策 的 表示 能 力 , 这 也 是 贝 叶 斯 决策 面临 的 挑战 。 


习 题 
1. 试 证 明 极 大 似 然 估计 是 类 紧 致 性 准则 的 一 个 特例 。 
2. 试 证 明 贝 叶 斯 似 然 估计 是 类 紧 致 性 准则 的 一 个 特例 。 


参考 文献 
[1] Domingos P, Pazzani M. On the optimality of the simple Bayesian classifier under 
zero-one loss. Machine Learning, 1998, 29(2-3): 103-130. 
[2] 周志 华 . 机 器 学 习 . 北京 : 清华 大 学 出 版 社 , 2016. 
[3] Murphy K P. Machine learning: a probabilistic perspective. Cambridge, MA: The MIT 
Press, 2012. 
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在 以 前 的 章节 里 , 研究 的 分 类 技术 最 基本 的 假设 是 各 个 类 为 同 质 类 , 粗略 地 
说 ， 就 是 各 个 类 的 内 部 表示 的 复杂 度 大 致 相同 。 但 是 , 在 实际 分 类 应 用 中 , 有 时 各 
个 类 的 内 部 表示 的 复杂 度 差别 很 大 。 本 章 将 研究 这 样 一 个 例子 ， 即 著名 的 决策 树 
分 类 算法 。 

决策 树 是 一 种 应 用 较 广 的 分 类 算法 , 该 算法 属于 白 箱 算法 , 而 且 是 一 种 可 视 
化 的 分 类 算法 。 本 章 首 先 介 绍 决 策 树 的 类 表示 , 之 后 介绍 决策 树 的 生成 算法 , 同 
时 结合 ID3 算法 、C4.5 算法 以 及 CART 算法 讲解 不 同 的 特征 选择 方法 , 最 后 引 
出 决策 树 的 剪 枝 问题 。 


14. ”决策 树 的 类 表示 


人 们 做 分 类 时 , 最 希望 得 到 的 是 类 的 经 典 表示 。 类 的 经 典 表 示 用 条 件 语 句 来 
定义 。 注意 到 本 书 中 假设 各 个 类 是 互 斥 的 ， 当 用 条 件 语句 来 定义 不 同 的 类 时 ，, 这 
些 条 件 语句 的 复杂 性 通常 天 差 地 别 。 为 了 说 明 这 一 点 , 需要 研究 用 来 做 类 定义 的 
条 件 语句 的 形式 。 对 于 用 来 做 类 定义 的 条 件 语句 ， 其 形式 是 “如 果 样 本 o 满足 条 
fF i, 则 o 属 于 第 i 类 ”。 因此, 研究 清楚 “样本 o 满足 条 件 i” 就 足够 了 。 这 依赖 
于 对 象 的 输出 特征 表示 。 如 果 假 设 久 =Y, 显然 “样本 o 满足 条 件 i” 就 成 为 “ 样 
例 z 满足 条 件 i”。 因此 需要 仔细 考虑 输入 特征 表示 。 为 了 简单 起 见 , 假设 所 有 
输入 特征 是 名 词性 特征 ， 如 果 不 是 , 则 通过 离散 化 使 其 变 为 准 名 词性 特征 。 如 果 
关 三 [zrkp]pxN， 则 zz 的 特征 可 以 表示 为 ((z)1,(z)2,… ,(z)p)， 其 中 (zk)" = tre K 
IR zx 的 第 7 特征 中 的 属性 值 。 

假设 去 中 由 vi 个 彼此 互 斥 的 条 件 来 描述 ， 其 中 的 第 ; 个 条 件 表示 为 
W = (ry (0). Gu) 1 < 7 < re 1€ rg < p rg BL 
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输出 认 知 表示 中 了 个 条 件 Q2); 的 长 度 ，7 表示 集合 (1,2,… ,p) 的 一 个 置换 
(ra (1), Ty(2),… 5 Tag (P))> (E)r, 表示 对 应 于 类 六 的 第 j 条 独立 条 件 中 的 第 (1) 
特征 的 某 个 条 件 (该 条 件 是 一 个 简单 命题 )。 因 此 ,如 果 特 征 s (D) 是 离散 值 , 则 
(Zz)7y 是 第 Tij(1) 特征 的 某 个 固定 特征 值 ; 如 特征 7i;(1) 是 连续 值 ， 则 (x) ra, 是 第 
va (1) 特征 的 离散 化 对 应 的 某 个 值 。( 瑟 )) 称 为 第 ;类 的 认 知 子 表示 。 
OM, Yay = (E)r (2)rg Gr) ro) 中 的 特征 条 件 有 先后 次 序 ， BL 
各 个 类 中 的 互 斥 条 件数 目 r 以 及 条 件 的 长 度 ry WR EMR. RKI Y) 
将 输入 空间 划分 成 一 些 互 斥 的 区 间 , 同时 ,所 有 的 (Ya); 合成 整个 输入 空间 。 
如 何 确定 (V2); We? 根据 奥 卡 姆 剃刀 准则 , 在 不 损失 分 类 性 能 的 情形 下 , 类 认 
知 表示 越 简 单 越 好 ， 因 此 可 以 知道 ,ri ry 都 是 越 小 越 好 。 考 虑 所 有 的 类 认 知 表 
示 , 可 以 知道 x Sry 越 小 , 此 时 对 应 的 类 认 知 表示 越 简单 。 要 想 x Dr 达 
TET A£ 


到 最 小 , 每 个 rig 应 该 达到 最 小 。 由 于 rig 表示 选 定 的 不 同 的 特征 个 数 , 为 了 使 得 
rij 最 小 ,应 该 选择 最 少 的 特征 来 做 出 分 类 决定 。 

考虑 到 奥 卡 姆 剃刀 准则 的 前 提 是 保持 分 类 器 的 性 能 ， 对 于 (Yi). 如果 分 类 性 
能 达 不 到 令 人 满意 的 地 步 , rij 就 必须 变 大 , 即 要 选择 新 的 特征 。 而 新 的 特征 应 该 
是 使 得 其 分 类 性 能 最 佳 。 如 果 用 类 紧 致 性 表示 其 分 类 性 能 ， 显 然 , 在 选择 新 的 特 
征 时 ， 需 要 遵循 类 紧 致 性 准则 ， 需 要 选择 类 紧 致 性 最 佳 的 特征 。 而 类 紧 致 性 准则 
要 求 设计 合理 的 类 相似 性 映射 或 者 类 相 异 性 映射 。 

为 此 , 考虑 到 (Yi) 的 互 斥 性 , 一 个 样本 满足 且 只 满足 关中 的 一 个 条 件 , 由 此 
AUR c WHE 2). 可 以 定义 Simy (z, Yv) = RN MH 1 <i <o Y) 

vi nee 和 中 满足 (Y); = (2): (w)ez eos (@) 2 rss) 条 件 的 样本 形成 的 数据 

des i)i| 表示 数据 集 X 中 满足 (Yi 2; s. (a Ja, sos (a)na) 条 件 的 样本 个 

(Y2, 门 Xs 表示 数据 集 X» 中 满足 (Y) = (ways (eg - (2), zo) 条 件 的 样 
RR. (YN Xel 表示 数据 集 Xs 中 满足 Q2); = (n) sg 
(x), ) 条 件 的 样本 个 数 。 一 般 情 形 下 ， (Y); = ((x)r3,,(@) 72,5 ee , (T)7g)» 其 中 1 < 
s € ry < p. WR c WE (VS. ADLER Simy (x, Yz) = Sup 其 中 1< 
i € e (Y); 表示 数据 集 久 中 满足 (3)3 = (E)r weg @)rg,) 条 件 的 样本 形 
成 的 数据 集 ， = 1| HIS X 中 满足 (Y) = (x) nup a (E)r) 条 件 
WEDA, (Yi DNX 表示 数据 集 Xi 中 满足 (Y); = (E) KORRE nua) 
ko ume ws (23 (1 Xe | 表示 数据 集 Xi 中 满足 D = (2), 
(2)52 a (a)rg,) 条 件 的 样本 个 数 。 EAR. (Y; = Y) 

假设 z 满足 (Y); 考虑 到 类 相似 性 映射 Simy (x, Yz) 的 形式 , 其 类 相 异 性 映 
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射 可 定义 为 Dsy(z, Yv) = 一 mmSimy(z, 丈 )， 由 此 可 以 知道 集合 (Y;) 的 类 紧 致 性 
程度 可 由 公式 (14.1) 计算 : 


Comp(X)) -3; Y; 


Pal eV) N Xy 





Dsy (x, Y) 
(Q5 
c —In Simy (a, Yi) 


= (14.1) 
fee, OD 


* IN Xel IGN Xs 
2, 0i "(03 


特别 地 , 如 果 s = 0, W (Yio =X, 因此, 公式 (14.1) 变 成 公式 (14.2)。 


Comp(X) => E» TEX 














i-lzex(|X, 
ES — In Simy (x, Y) 
i=1 zEXN Xu IX| 
v (14.2) 
D XN Xel p ANZ 
= KI |X| 








F T at xi 


公式 (14.1) 和 公式 (14.2) EAE Pe BECHER ARAS) HUNE ZR. XC, 给 出 
T AS ASSUM NERE o 
如 果 (Y); 已 知 ， 但 此 时 的 分 类 性 能 依然 不 能 令 人 满意 ， 此 时 需要 选 定 
最 优 的 特征 7ij(s 十 1)。 如 何 选 呢 ? 显然 类 紧 致 性 准则 必须 考虑 。 对 于 数据 
RX IAS IRI r(t), Tial) ,Tij(s) 的 其 他 任 一 E BI r € (,2,---,p) — 
(51). 745 (2), Tal 要 仔细 计算 数据 集 (1); 在 一 步 限定 特征 7 时 的 类 紧 
SE. 不 妨 假设 第 7 特征 具有 S 个 特征 值 01,72. Ts, 和 Vv € {1,2,--- , Sz}, 
Thv) € (i72. Ts, h (X25, 7 (0)) 表示 数据 集 Y: 中 满足 r(o) 条 件 的 样本 集 ， 
容易 证 明 ((Y2)5, r(v)) = 数据 集 X "iie (:)5.7()) = (a) (E)r o Ergo 
v(v)) 条 件 的 样本 形成 的 数据 集 , (Y5, 7 (v))] 表示 数据 集 (Y); 中 满足 7 (v) 条 件 
的 样本 个 数 , 容易 证 明 (Y) r(o))|= 数 据 集 X 中 满足 (Ya) = (E)r (@)ez eo 
(x)xz,,7(v)) )) 条 件 的 样本 个 数 ， (25, 7() 1 Xv 表示 数据 集 Xy iiis (vas 
T(v)) = (E)r (E)rg e s (@)rg,, 7(v)) 条 件 的 样本 形成 的 数据 集 , (Y) 7 (v)) n 
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Xv| 表示 数据 集 Xo 中 满足 (Y) r(o)) = (Ce) ra, 0). s (@) rg, T(v)) 条 件 的 
样本 个 数 。 根 据 以 上 分 析 和 公式 (14.1)， 可 以 知道 对 于 集合 (Y, Y); 如 果 继 续 选 择 
的 特征 为 第 r 特征 , 则 相应 的 类 紧 致 性 度量 可 由 式 (14.3) 表示 : 





Comp((¥i)5|7) 


x! VOTIS. camel. r(9) 


四 XE D KEDD Dsy (x, Yir) 
“100351 parecer x, (TOI (14.3) 
KEDO e - In Simy (a, Yv) 
7 -> 1%) 5l (Œ) 7 (v) 


P-1ze(Q)5 T) N Xv 


5 EOI (DHT) A Xel |. 292.79) Xe 
2, Nb or) are 








v=1 


对 于 (¥i)§, Comp((¥i)§) 是 一 个 常量 。 因 此 , 对 于 集合 (Yi)3, 可 以 定义 一 个 相 
对 于 第 7 特征 的 类 紧 致 性 度量 Comp((Y;)5, 7) = Comp((Y;)7) — Comp((Y;)5|7) 

(Y); 要 选 定 最 佳 的 特征 n; (s + 1). 应 该 遵循 类 紧 致 性 准则 ， 即 选择 的 特征 
Tij(s +1) 应 该 满足 公式 (14.4). 

Tij(s+1)= arg a ay cylin eee Comp((¥i)5, T) (14.4) 
当 根据 公式 (14.4) 选择 特征 m; (s +1) 之 后 , 对 于 rig (s 十 1) 的 各 个 特征 值 ， 
考察 其 对 应 样本 的 类 标 。 如果 5;(s + 1) 的 某 个 特征 值 对 应 的 样本 都 属于 某 一 类 
或 者 不 对 应 任何 样本 , 则 该 特征 值 分 类 结束 ; 否则 继续 , 直至 所 有 的 特征 都 遍历 。 

公式 (14.4) 是 一 个 递归 公式 , Vivj, (Y); 这 样 的 类 表示 是 一 个 层次 模型 。 该 类 
表示 具有 两 种 操作 , 一 种 是 将 不 同 特征 按照 类 紧 致 性 准则 进行 递归 给 出 不 同 特征 
的 分 类 优先 次 序 , 另 一 种 是 利用 同一 特征 的 不 同 特征 值 将 输入 空间 进行 划分 。 通 
过 这 两 种 操作 , 类 表示 Vivj, (Yi); 生成 了 一 个 树 结构 , 因此 称 为 决策 树 模型 。 根据 
以 上 分 析 可 以 知道 , 内 部 节点 对 应 特征 , 简称 特征 节点 ; 叶 节 点 对 应 类 标 , 简称 分 
类 节点 。 节点 之 间 的 连 线 用 带 箭头 的 线段 表示 ， 箭头 尾部 节点 对 应 连 线 起 始 特征 ， 
箭头 所 指 节点 或 为 类 标 或 为 连 线 终 端 特征 , 连 线 对 应 由 起 始 特征 到 类 标 或 连 线 终 
端 特征 决定 的 某 个 起 始 特征 的 特征 值 。 显然 , 第 一 个 内 部 节点 是 树 的 根 节点 , ri; 
至 多 是 p。 当 数据 集 X 中 的 所 有 样本 都 属于 同一 类 时 , 此 时 显然 有 Vivj(rij = 0)， 
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此 时 , 树 由 唯一 的 叶 节 点 组 成 , 没有 内 部 节点 。 在 这 种 情况 下 , 训练 集 的 所 有 特征 
对 于 决策 树 分 类 算法 是 无 意义 的 。 换 名 话说 ,对 于 决策 树 来 说 ,如 果 训练 集 避 中 
的 特征 对 于 分 类 有 意义 , 训练 集 X 中 必须 有 属于 各 个 类 的 样本 。 

下 面 给 出 一 个 决策 树 的 例子 , 如 图 14.1 所 示 。 假设 数据 集 X 有 两 个 连续 值 描 
述 的 特征 (x), (x) 因此, 需要 离散 化 。 不妨 假 设 对 于 特征 (z)1， 离 散 化 成 两 个 
特征 值 , 一 个 是 (£) > wis 另 一 个 是 (x£) < wis 其 中 wi 是 (z)i 的 一 个 特定 特征 
值 ,对 于 特征 (x) 离散 化 成 两 个 特征 值 , 一 个 是 (£) > wa. 另 一 个 是 (x) < wa, 
其 中 we 是 (z)s 的 一 个 特定 特征 值 。 数 据 集 X 包含 两 类 ,其 类 输出 认 知 表示 记 为 
六, 玖 。 根 据 以 上 的 计算 ， 首 先 选 用 类 紧 致 性 最 佳 的 特征 (z)1， 其 对 应 树 的 第 一 个 
内 部 节点 , 即 根 节点 。 由 于 特征 (x): 有 两 个 特征 值 , 因此 ， 从 对 应 特征 (z)i 的 节 
点 上 有 两 条 连 线 导出 两 个 节点 ， 其 中 一 条 连 线 对 应 于 特征 值 (z)i < wr, MELE it 
头 所 指 的 节点 包含 的 样本 都 属于 第 2 类 , 因此 对 该 特征 值 分 类 结束 ， 其 对 应 于 一 
个 终端 树叶 节点 , 在 该 节点 上 标定 相应 类 标 ; 一 条 连 线 对 应 于 特征 值 (zx)1 > wi， 
该 连 线 稍 头 所 指 的 节点 包含 的 样本 不 属于 同一 类 ， 由 于 剩余 的 特征 只 有 一 个 , 因 
此 ， 该 连 线 箭 头 所 指 的 节点 对 应 的 特征 为 (z)。。 对 于 该 节点 (z)。， 考 虑 其 包含 的 
特征 值 , 即 可 知道 ,其 有 两 条 连 线 导出 两 个 节点 ， 都 是 如 图 14.1 所 示 的 叶 节 点 。 
容易 看 出 ,决策 树 由 特征 节点 和 分 类 叶 节 点 组 成 ,是 一 种 可 视 化 的 分 类 方式 。 显 
BR, 从 根 节点 到 一 个 特定 的 叶 节点 的 路 径 ， 就 构成 了 一 个 具体 的 输出 类 认 知 表示 
( 蕊 ))， 其 叶 节 点 的 类 标 根 据 样 本 可 分 性 公理 来 给 出 , 即 满足 条 件 (Y); 的 样本 集 
中 ,出 现 概率 最 大 的 类 标 即 为 该 叶 节 点 的 类 标 。 
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图 14.1 简单 决策 树 的 例子 

















相 比 其 他 方法 ,决策 树 的 解释 性 更 好 ,由 于 其 层次 结构 可 以 使 得 输入 样 例 被 
快速 分 到 相应 区 域 。 还 可 以 将 节点 上 的 路 径 转换 成 简单 的 还 then 规则 ,从 根 节点 
到 任意 叶 节 点 的 路 径 都 可 以 生成 一 条 唯一 的 于 then 规则 , 路 径 上 的 每 一 个 内 部 节 
点 都 是 规则 的 条 件 ,路径 的 叶子 节点 就 是 规则 的 结论 。 输入 集合 中 每 一 个 样 例 都 
被 决策 树 的 一 条 路 径 或 一 条 规则 覆盖 ,并且 只 被 一 条 路 径 或 规则 获 盖 由。 
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对 于 图 14.1 可 以 生成 下 then 规则 : 
if (z); < wi, then Y,: 
if (x), > wi and (x)2 < we, then Y; 


if (x), > wy and (7)2 > we, then Y, 


决策 树 还 可 看 成 是 向 量 形式 ， 从 根 节点 到 任意 节点 的 路 径 都 对 应 向 量 里 的 特 
征 ， 因 此 决策 树 可 以 看 成 是 许多 路 径 生 成 的 不 等 长 向 量 的 析 取 。 图 14.1 可 以 形成 
表达 式 : 

Yi: ((a)1 < wi) V ((x)1 > wi, ()a < w2) 

Yo: ((a)1 > wi, (z)a > we) 

显然， 第 一 类 的 输出 类 认 知 表示 Yi 存在 两 个 条 件 QA: (e) < w) 和 
(Y1)2 : ((x)1 > w1, (c) < wa). 





14.2 ”信息 增益 与 ID3 算法 


在 传统 文献 中 ,， Comp((Y%),7) = Comp((¥i)5) — Comp((¥i)$|7) 称 为 信息 增 
2i, Comp((Y;)5) 为 炉 函 数 。 对 于 分 类 任务 来 说 ， 人们 希望 (到) 中 的 样本 最 好 能 
够 属于 一 个 类 ,此 时 Comp((¥i)$) 等 于 零 。 当 Comp((Y;)5) 达到 最 大 值 时 ,训练 
TIR (Y)5 中 的 类 分 布 最 为 随机 ， 此 时 (Y); 作为 类 判定 的 条 件 是 最 不 合适 的 。 这 
清楚 解释 了 为 什么 Comp((Y;)) 可 以 作为 训练 子 集 (Y:)5 的 一 个 分 类 不 纯度 衡量 
标准 。 

根据 以 上 的 分 析 ， 就 得 到 了 经 典 的 IDS 决策 树 算法 回 。 此 算法 的 基本 方式 ， 
是 根据 公式 (14.4) 将 分 类 能 力 最 好 的 特征 放 在 根 节点 , 将 该 节点 特征 的 每 个 特征 
值 生 成 一 个 分 支 , 把 训练 样 例 分 配 到 相应 的 分 支 中 。 如 果 某 个 分 支 中 , 不 含 样本 
或 者 所 有 的 样本 都 属于 一 类 , 则 该 分 支 结 束 ; 否则 , 在 分 支 节 点 重复 上 述 过 程 , 直 
至 所 有 的 特征 遍历 完毕 。 然 后 ， 如 果 某 个 叶 节 点 中 的 样本 不 为 空 , 则 根据 样本 可 
分 性 来 进行 分 类 标定 。 否则， 该 叶 节点 中 的 样本 为 空 EE, WW 399—255, 根据 上 一 级 
的 样本 类 别 分 布 情况 进行 标定 。ID3 算法 在 构造 决策 树 的 结构 时 从 不 回溯 ,是 
种 典型 的 贪 禁 搜 索 算 法 。 

前 面 的 理论 分 析 假设 已 经 知道 了 每 个 类 的 具体 认 知 表示 及 其 编 序 , 但 是 , 这 
显然 是 在 算法 结束 之 前 不 可 能 完全 知道 的 内 容 。 因 此 , 决策 树 算法 的 类 认 知 表示 
并 不 适合 直接 用 于 设计 决策 树 算法 。 为 了 更 加 清晰 地 描述 决策 树 算法 , 需要 给 出 
一 个 更 实用 的 决策 树 算法 类 认 知 表示 。 从 上 面 的 理论 分 析 可 以 知道 , 决策 树 算法 
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是 一 个 逐步 确定 节点 的 流程 。 当 所 有 节点 确定 完毕 , 决策 树 算法 结束 。 考虑 到 决策 
树 节点 与 类 认 知 表示 有 一 一 对 应 关系 , 因此 ,如 果 能 够 给 出 节点 对 应 的 数学 表示 ， 
当 决 策 树 算 法 结束 之 后 , 也 就 得 到 了 相应 的 类 认 知 表示 。 对 于 决策 树 来 说 , 任意 两 
个 相 邻 节点 之 间 的 连 线 对 应 某 个 特征 的 具体 特征 值 , 每 个 节点 可 以 用 从 根 节点 到 
此 节点 的 路 径 表示 , 因此 , 每 个 节点 可 以 用 一 个 向 量 表示 , 其 中 的 每 个 分 量 对 应 路 
径 上 的 每 个 连 线 对 应 的 某 个 特征 的 具体 特征 值 。 为 了 更 加 精确 地 说 明 这 一 点 ， 需 
要 对 叶 节 点 重新 进行 分 类 统计 。 对 于 某 个 节点 ， 从 根 节 点 通 向 该 节点 的 路 径 长 度 
Ws, 则 称 该 节点 为 s 阶 节点 。 假设 s 阶 节 点 有 ms 个 , 由 于 s 阶 节点 一 般 不 是 在 决 
策 树 算法 结束 才 可 确定 的 , 因此 ns 在 决策 树 算法 中 间 过 程 中 就 可 以 确定 。 设 ns 个 
s 阶 节点 为 @3, 63,… ,O8 。 对 于 节点 Vi € {1,2,… mg}, OF = (05,05. ,05)， 
其 中 ez 也 唯一 对 应 一 个 集合 全 ,2,… p) 的 置换 of, 使 得 Vj € {1,2,… ,p}, 05 
是 第 o2 (3) 特征 的 一 个 特征 值 。 容 易 看 到 ，@; 与 (Y); 只 是 在 序列 编号 上 不 同 ， 
其 他 的 等 价 , 即 Os 也 可 以 代表 数据 集 (X,U) 中 满足 ez 的 样本 组 成 的 子 集 。 因 
此 ,根据 前 面 的 理论 分 析 ,， 如果 数 据 集 (X,U) 中 没有 样本 满足 OF 或 者 所 有 满足 
Os 的 样本 都 属于 同一 类 ， 则 得 到 某 类 的 一 个 认 知 子 表示 ， 对 应 一 个 叶 节 点 ， 否 
则 , 就 需要 继续 选择 一 个 最 佳 分 类 特征 。 根据 上 面 的 分 析 ， 这 时 选择 最 佳 特 征 公 
式 (14.4) 就 变 成 公式 (14.5)。 根 据 公式 (14.5) 选择 最 佳 特征 o?(s + 1)， 此 时 ， 节 
点 er 生成 Sos(st1) 个 s 十 1 阶 节点 。 








oi(s+1)= arg Comp(@;,7) (14.5) 


max 
TE {1,2,--- p}—{o7 (1,0 (2),--- ,o7(s)} 
id ng =1, 0? =Ø, {o9(0)} =o. Hilt, 可 以 给 出 经 典 的 ID3 决策 树 算法 。 
算法 14.1 ID3 决策 树 算法 
。 输入 : 
(X,U) 为 训练 样 例 集合 , p 为 样本 特征 数 ,其 中 x 中 的 元 素 皆 为 符号 型 数据 (或 者 离散 
型 数据 )。 
. 输出 : 
一 棵 能 够 正确 分 类 训练 集合 (X, U) 的 决策 树 。 
。 初始 化 
邻 no —1, 02 = e, 其 他 的 ns =0. 
。 构造 决策 树 
For s=0,1,2,.……,p—1 
For i = 1,2,--- ,ns 
如 果 数 据 集 (X,U) 中 没有 样本 满足 Of 或 者 所 有 满足 ez 的 样本 都 属于 同一 类 , 则 e? 
为 某 类 的 认 知 子 表示 ,对 应 决策 树 中 的 s 阶 叶 节 点 。 此 s 阶 叶 节 点 对 应 的 类 标 按 如 下 方 
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式 决定 : 如 果 数 据 集 (X,U) 中 没有 样本 满足 O 则 ez 对 应 的 类 标 由 数据 集 (X,U) 中 

满足 (03,015. - ,bis_D) 的 样本 集 根据 类 可 分 公理 决定 ; 否则 , 由 满足 OF 的 样本 类 标 

决定 。 

如 果 数 据 集 (X,U) 满足 OF 的 样本 不 属于 同一 类 ,按照 公式 (14.5) 找 出 最 佳 分 类 特 

征 o(s + 1)， 此 即 该 节点 的 标定 特征 。 此 时 ， 可 继续 生成 Sog(sp1) 个 s 十 1 阶 节点 

est? 02 .. ett i 
ms 十 1 十 1) V ngq1421 77 5 me+I 十 Sog(e+1) 
end 


Nst1 = Ns+1 + Sog(s+D。 


end 


。 类 标 决策 
For i = 1,2,--+ ,np 
对 于 了 阶 节 点 ， 由 于 所 有 的 特征 已 经 遍历 ,因此 都 是 叶 节点 。 此 时 ， 如 果 数 据 集 (X,U) 
中 没有 样本 满足 @?, 则 其 类 标 是 数据 集 (X, U) 中 满足 (05.05. ,94,_1)) 的 样本 集 
中 包含 最 多 样本 的 类 标 。 如果 数据 集 (X,U) 中 满足 OP IPEA HC ASE, 则 根据 类 可 
分 公理 , 标定 为 包含 最 多 样本 的 类 标 。 


end 


14.3 ”增益 比率 与 C4.5 算法 


信息 增益 Comp(O$, 7) = Comp(0:) — Comp(Bs|7) 是 一 种 选择 特征 的 有 效 
办 法 , 但 它 偏向 于 选择 取 值 较 多 的 那些 特征 。 例如 在 有 关 国 民 统计 的 数据 集中 ， 
21s 作为 划分 特征 , 则 会 生成 庞大 的 分 支 , 而 每 一 个 分 支 只 

一 个 样 例 。 这 种 情况 下 为 “ 纯 ” 划 分 , 此 时 信息 增益 为 最 大 , 但 是 这 种 划分 对 
eo 因此 ， 需 要 对 具有 不 同 特征 值 数目 的 特征 进行 校准 。 注 意 到 信 
息 增 益 Comp(©$,7) 使 用 了 类 相 异 性 映射 。 因此 , 一 种 简单 的 方法 是 设计 类 相 异 
性 映射 Dsy(z, Y) 的 时 候 , 考虑 到 这 种 偏 置 , 可 对 信息 增益 标准 化 ,为 此 定义 分 
裂 信息 函数 ; 


2 K5 TOD, (Q0)5, (9l 





























Split, (0595) xoi 7 1093 
- , | — In Simy (x, Yi) = E 
由 此 , He RARER Doy (e Ye) = o o Joh Ye = (Q9 
z(o))。 由 此 根据 类 紧 致 性 准则 , 得 到 增益 比率 为 : COMPCOET) 。 考虑 到 特征 > 划 


Split, (67) 
分 后 分 支 过 多 则 分 裂 信息 函数 取 值 会 很 接近 0, 为 了 解决 这 个 问题 , 可 以 加 入 限 
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制 , 特征 7 的 信息 增益 至 少 大 于 平均 信息 增益 。 同 样 选择 取得 最 大 增益 比率 的 特 
征 作为 分 裂 特征 。 

C4.5 算法 采用 增益 比率 作为 特征 选择 方法 , 并 设 定 阐 值 E 作为 停止 条 件 。 对 
于 当前 增益 比 最 大 的 特征 7, 判断 7 的 增益 比 是 否 小 于 阔 值 &， 如 果 小 于 阔 值 & 则 
将 该 节点 作为 叶 节 点 , 类 标 为 数据 集中 满足 从 根 节点 到 本 节点 路 径 条 件 的 包含 样 
本 个 数 最 多 的 类 。 

C4.5 算法 改进 了 ID3 算法 , ID3 算法 只 能 处 理 离散 型 特征 , 而 C4.5 算法 能 够 
处 理 连续 性 特征 。C4.5 会 对 数据 进行 预 处 理 将 连续 型 特征 离散 化 。 其 方法 如 下 : 
首先 , 将 特征 7 的 取 值 升序 排列 , 将 每 两 个 邻近 值 之 间 的 中 值 作为 分 裂 值 的 候选 
值 , 例如 特征 7 的 两 个 连续 值 ai aiio 取 中 值 : 
Qi + Qi+1 

2 

对 于 每 一 个 分 裂 值 的 候选 值 都 计算 其 信息 增益 比率 ,信息 增益 比率 最 大 
的 候选 值 为 分 裂 值 , 根据 分 裂 值 将 集合 划分 成 两 部 分 , 在 并 不 引起 混淆 的 情形 
Fo (c). < 04 表示 (a), < as 的 样 例子 集 ，(z)- > ai 表示 满足 (x), > o 的 样 例 
子 集 。 





Qj = 


14.4 Gini 指数 与 CART 算法 


CART(classification and regression tree) $212; 51, 即 分 类 回归 树 ， 是 一 个 既 
可 应 用 于 分 类 也 可 应 用 于 回归 的 算法 。 如 果 Dsy (c, Yy) = 1 — Simy (x, Yy), 可 以 
证 明 如 下 等 式 : 
Dsy (z, Yu) 


Comp(Y))- E 一 


i=1 rE(Y)SN Xv 


c 1 — Simy (x, Yz) S (3 YXel V? 
=E X 1 Yl ) 











i.t. E 2 (jl 
(14.6) 
Sr Yi), T(U 
Comp((Y)lr) = 32 LU temi 
LER (14.7) 








KE EIA f (23.70) Xe 
j 3 E 3 ipee 


v=1 
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Comp((Y;)5, 7) = Comp((Y;);) - Comp((Y;);|7) 
o Q5 Xl 
--Y (Sa IQ35l ) (14.8) 


(Q5. 7 (9) (Q5. 7) d Xal 

D» 3l >| KODON] ) 
公式 (14.6) 即 为 著名 的 Gini 指数 。 显然 本 章 用 归 类 公理 的 方式 重新 推出 了 

Gini 指数 。 可 以 利用 公式 (14.7) 和 公式 (14.8) 重新 推导 出 常见 的 决策 树 算法 。 

CART 假设 决策 树 是 二 叉 决策 树 ,， 因此 首先 需要 将 每 个 特征 二 值 化 , 其 基本 
思路 是 计算 每 个 特征 的 最 优 二 值 化 , 即 计算 arg max,, Comp((Y;)5, bz), b. REF 
4E r 的 任 一 种 二 值 化 。 如 果 特 征 r 具有 离散 值 (01.72. ,rs }+ {TT ,Ts,} 
DAS F TERRIER HET TITRE UESTRE 

征 7 的 二 值 划分 。 对 于 一 个 样 例 考 虑 其 特征 r 取 值 是 否 在 集合 b, E WE, WER 
定 特征 值 为 1， 否则 为 零 , 因此, br 可 以 表示 特征 7 的 一 种 二 值 化 。 

对 于 每 个 特征 都 考虑 其 划分 的 Comp((Yi)3lb-)， 对 于 离散 特征 值 ， 将 对 应 
Comp((¥i)$|b,) 最 小 值 的 特征 子 集 b. 作为 分 裂 子 集 。 对 于 连续 取 值 的 特征 ， 每 一 
^r HI fi 的 分 列 点 都 要 考虑 。 与 信息 增益 相似 ， 将 临近 取 值 的 中 点 作为 分 列 候 先 
fi Comp((Yz)5|b-) 取 值 最 小 的 属性 值 作为 分 裂 值 。 

CART 算法 通过 设 定 阔 值 凡 来 停止 生成 决策 树 , j 为 样本 个 数 ， 如 果 当 前 节 
点 的 样本 个 数 小 于 jy 时 则 停止 生成 。 也 可 以 类 似 于 增益 比率 设 定 阔 值 上, 当 Gini 
指数 小 于 上 时 则 停止 。 

















14.5 (ARBAB 


通过 上 述 方法 生成 的 决策 树 包含 许多 不 必要 的 分 支 , 这 些 分 支 可 能 是 由 于 训 
练 集合 的 噪音 和 异常 值 产 生 的 。 这 导致 了 决策 树 算法 可 能 过 拟 合 。 根据 奥 卡 姆 弟 
刀 准 则 , 为 了 避免 产生 过 于 复杂 的 决策 树 , 应 该 考虑 对 决策 树 进行 适当 的 简化 。 
在 决策 树 学 习 中 将 已 生成 的 决策 树 进行 简化 的 过 程 称 为 剪 枝 , 即 裁 掉 一 些 子 树 和 
叶子 节点 , 将 其 根 节点 或 父 节 点 作为 新 的 叶 节 点 , 以 达到 简化 的 目的 。 剪 校 可 以 
有 效 地 处 理 过 拟 合 问题 , 其 使 用 统计 理论 移 除 可 信 性 小 的 分 支 。 

剪 枝 策 略 主要 包含 两 种 : 一 种 是 先 剪 枝 策 略 ， 即 在 树 完全 构造 出 来 之 前 提前 
停止 树 的 构造 ; 另 一 种 是 后 剪 枝 策 略 ， 对 已 生成 的 树 进行 剪 枝 ,， 这 种 策略 效果 好 
于 先前 枝 方法 , 打破 了 决策 树 生成 时 的 不 回溯 限制 。 
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先 剪 枝 策略 中 , 通过 提前 停止 树 的 构造 进行 剪 枝 。 例 如 ， 对 于 某 个 节点 决定 
是 否 再 分 裂 下 去 。 如 果 在 某 个 节点 上 判断 停止 划分 , 则 将 该 节点 设置 为 叶子 节点 。 
该 叶子 节点 以 当前 数据 划分 区 域 中 出 现 频 率 最 大 的 样 例 类 别 为 类 标 。 

在 生成 决策 树 时 可 以 通过 统计 学 方法 、 信息 增益 、Gini 指数 等 方法 来 评价 划 
分 的 好 坏 。 执 行 先 剪 枝 策略 生成 决策 树 之 前 设 定 一 个 阔 值 ,如果 节 点 划分 后 的 评 
价值 低 于 该 阔 值 ,， 则 停止 在 该 节点 上 的 划分 。 这 种 停止 策略 要 求 设 定 合适 的 阔 值 ， 
因此 比较 困难 。 过 高 的 阔 值 将 生成 过 于 简单 的 决策 树 ， 相 反 较 低 的 阔 值 则 不 利于 
决策 树 的 剪 枝 。 

应 用 更 为 广泛 的 是 后 剪 枝 策略 。 后 剪 枝 策略 中 ,首先 学 习 一 棵 完整 的 决策 树 ， 
该 树 的 每 个 叶子 节点 都 是 零 训 练 误差 的 ,之 后 找 出 过 拟 合 的 子 树 并 对 其 进行 前 
枝 ， 即 将 该 子 树 用 叶子 节点 替代 。 叶 子 节点 的 类 标 为 该 子 树 中 出 现 频率 最 高 的 样 
例 类 别 。 

更 具体 的 有 关 决 策 树 剪 枝 的 论述 可 以 参考 周志 华 所 车 《机 器 学 习 》。 








讨 论 

决策 树 算法 是 最 常用 的 分 类 算法 之 一 , 具有 良好 的 解释 性 ， 并 可 将 分 类 结果 
进行 可 视 化 展示 。 严 格 说 来 ,决策 树 算法 是 目前 唯一 可 以 将 分 类 过 程 与 结果 可 视 
化 的 分 类 算法 ,是 现今 唯一 的 可 视 化 分 类 算法 。 因 此 , 在 具有 解释 性 要 求 的 应 用 
层面 , 决策 树 分 类 算法 具有 天 然 的 优势 。 但 是 , 决策 树 算法 选择 特征 的 方法 众多 ， 
如 何 选 择 合适 的 方法 对 于 使 用 者 也 是 一 个 挑战 。 


J E 

1. 简 述 决策 树 生成 的 主要 步 又。 

2. 决策 树 生成 算法 为 什么 要 加 入 剪 枝 策略 ? 试 分 析 使 用 剪 枝 集 来 估计 剪 枝 的 缺点 。 

3. 假设 训练 集合 D, 共有 训练 样 例 |D|, 样 例 包 含 n 个 特征 , 分 析 生 成 决策 树 的 最 大 计算 成 
本 为 n x |D| x In(|D|)。 

4. 假设 目前 有 五 类 样 例 , 各 类 样 例 分 布 概率 为 P(1) = 0.5, P(2) = P(3) = P(4) = P(5) 
0.125, i TERIS ER CS 

5. 表 14.1 为 统计 数据 , 不 同 的 外 貌 特征 决定 着 是 否 具 有 魅力 , 对 于 该 集合 生成 决策 树 , 找 
出 具有 决定 性 的 外 貌 特征 。 
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表 14.1 ” 外貌 特 征 属性 的 魅力 数据 集 
身高 头发 眼睛 魅力 
IE 金色 褐色 fü 
高 深 色 褐色 f 
高 金色 蓝 色 是 
高 深 色 蓝 色 f 
D: 深 色 蓝 色 f 
高 红色 蓝 色 是 
高 金色 褐色 区 
D: 金色 蓝 色 是 
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降 维 攻 击 。 
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以 上 章节 里 的 分 类 算法 都 假设 输入 输出 时 对 对 象 的 特征 描述 相同 。 在 现实 
中 ， 有 许多 实际 应 用 ,多 类 归 类 算法 的 输入 输出 对 对 象 的 特征 描述 并 不 相同 。 一 
般 地 , 输入 空间 不 同 于 输出 空间 时 ,其 维 数 也 不 同 。 当 输出 空间 的 维 数 低 于 输入 
空间 的 维 数 时 , 对 应 的 归 类 模型 更 简单 一 些 。 根 据 奥 卡 姆 剃刀 准则 , 在 性 能 相当 
的 情形 下 , 应 该 选择 简单 的 模型 。 因 此 , 本章 首先 研究 输入 空间 高 于 输出 空间 维 
数 的 归 类 模型 即 多 类 降 维 模型 。 主 要 介绍 两 类 模型 : 有 监督 特征 选择 分 类 模型 、 
有 监督 特征 提取 分 类 模型 。 





15.1 ”有 监督 特征 选择 模型 


对 于 给 定 的 数据 集 (X,U), 并 不 能 保证 其 中 所 有 的 特征 都 对 分 类 有 用 。 如 研 
究 人 类 的 智商 时 ,不 能 期 望 数据 集中 含有 的 衣着 、 饮 食 特征 对 这 个 问题 提供 有 益 
的 帮助 。 历史 曾 经 记载 , 衣衫 袜 裕 、 饮 食 朴 素 的 有 哲学 家 苏 格 拉 底 、 狄 奥 根 尼 ; 始 
终 衣 和 冠 锦 绣 、 脸 不 厌 细 的 有 亡国 之 君 晋 惠 帝 、 明 崇祯 ; 有 前 半生 锦衣 玉 食 、 后 半生 
宁愿 穿 百 袖 衣 、 乞 百 家 饭 的 佛陀 。 这 些 例子 明显 说 明 , 衣着 、 饮 食 特征 对 于 判断 人 
的 智商 不 但 无 益 , 甚至 有 害 。 因此， 如何 从 数据 集中 选择 对 分 类 有 用 的 特征 就 非 
常 重要 。 

di AS NX A (X,U, X, Simx), 输出 表示 为 (Y,V,Y,Simy), 那么 有 监督 
特征 选择 模型 的 特征 选择 要 求 p = dim(X) > dim(Y) = d. Vk, yk = ps(zk), 其 
中 pg() 是 一 个 投影 映射 , 满足 如 下 性 质 : Vj e {1,2,… ,d}Bi € (,2,--- ,p}vk € 
{ ,2,… , N)(u); = (Er) 这 里 ，(yk); = vj; (Zk)i = Zu。 如果 假定 选 定 的 特征 
REN F 则 上 述 表 示 可 以 简单 表示 为 Y = (X)s。 
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本 节 将 根据 以 上 准则 来 分 析 常 见 的 有 监督 特征 选择 模型 : 过 滤 式 选择 、 包 于 
式 选 择 与 嵌入 式 选 择 模型 。 


15.1.1 ”过 滤 式 特征 选择 


过 滤 式 特征 选择 的 主要 特点 是 先 对 数据 集 的 特征 进行 选择 , 然后 在 选择 后 的 
特征 上 进行 分 类 器 学 习 , 特征 选择 时 不 考虑 后 续 分 类 器 。 其 基本 思想 是 从 p 维 的 
输入 特征 中 选 出 d 维特 征 , 选 出 来 的 这 d 个 特征 是 所 有 p 维 输入 特征 中 具有 最 佳 
分 类 性 能 的 a 维特 征 。 因 此 , 分 类 性 能 判 据 至 关 重 要 。 根据 归 类 公理 可 知 , 分 类 性 
能 判 据 应 该 考虑 类 一 致 性 准则 、 类 紧 致 性 准则 和 类 分 离 性 准则 。 

类 一 致 性 准则 要 求 分 类 错误 率 越 小 越 好 , 因此, 特征 选择 的 分 类 性 能 判 据 可 
以 是 分 类 错误 率 。 为 了 方便 表 示 特 征 选择 使 用 的 分 类 错误 率 , 不 妨 假设 所 有 特 
征 均 为 有 限 个 离散 值 ， 考 察 的 特征 集合 为 和， 由 此 计算 训练 集 (X,U) 限定 特征 

合 人 时 的 分 类 错误 率 。 ,此 时 ， 由 于 特征 均 为 有 限 离散 值 ， 特 征集 合 售 将 整个 
特征 空间 划分 为 有 限 个 区 域 , 训练 集 (X,U) 中 的 所 有 元 素 都 落 入 特定 的 由 划 
分 的 区 域 。 假设 输出 表示 = (X)s， 此 时 对 任 一 个 z， 可 以 定义 其 对 应 的 y 的 
隶属 度 为 : vy (y, Yi) LA eed vy (p(x), Yi); 其 中 
y = esg(c)« 因此, vy (y, Yi) = vy (eg (x), Yi). 这 样 , 可 以 定义 选择 特征 集合 信之 


后 ， 第 大 个 样本 的 类 一 致 性 损失 为 态 (zk) = X uaua - vi), 其 中 ua € (0,1) 














HR x Uik = To 
据 此 ， 根据 类 一 致 性 准则 , 特征 选择 判 据 可 以 表示 为 


s(X,U)= Da Tk) = ial — vik) (15.1) 


k=1 i=1 


类 一 致 性 准则 要 求 选 定 的 最 佳 特征 集 F 应 满足 大 = arg ming Jg(X,U)« 

类 似 地 , 类 紧 致 性 准则 、 类 分 离 性 准则 也 可 以 用 来 选择 最 佳 特征 集 。 当 然 , 也 
可 能 综合 使 用 以 上 多 条 规则 来 设计 用 作 特 征 选择 的 分 类 性 能 判 据 。 比 如 著名 的 
Relief 特征 选择 算法 就 联合 使 用 了 类 紧 致 性 准则 和 类 分 离 性 准则 。 

在 Relief 特征 选择 算法 中 , 输入 数据 类 别 已 知 , 输出 类 认 知 表示 即 其 外 延 表 
an, 用 数学 语言 来 说 , BI vi, Y; = Xi。 如 果 选 定 的 特征 集 为 F, 则 样本 zx 的 类 内 
相似 度 可 以 定义 为 dist((zx)s, (xn) R")» 其 中 Qn)" 表示 样本 zk 在 其 同类 中 的 最 
近邻 样本 ，(z) 信 表示 样本 (ck )^^ 限定 在 特征 集 售 下 的 特征 表示 。 根 据 类 紧 致 性 





第 15 章 多 类 数据 降 维 201 





准则 , 最 佳 特征 集 应 该 使 得 类 内 方差 最 小 ， 


N 

> dist((zx)s, (e)$") (15.2) 
类 似 地 ， 如 果 选 定 的 特征 集 为 F, 则 样本 zx 的 类 间 相似 度 可 以 定义 为 dist((zh)s， 
(zy), 其 中 rg)" 表示 样本 zx 在 其 不 同类 中 的 最 近邻 样本 ，(zx)2" 表示 样 
本 (ax) 限定 在 特征 集 仿 下 的 特征 表示 。 根据 类 分 离 性 准则 , 应 该 使 得 类 间距 离 
最 大 。 











N 
> dist((zx)s, (zh 到) (15.3) 


k=1 
综合 以 上 两 点 , 可 以 知道 应 该 最 大 化 分 类 性 能 判 据 Ja (XU) 来 选择 最 佳 特 
征集 人。 


Jg( )= urne Th $)- (Soa (zh)g (xe) 3) (15.4) 


当选 定 了 分 类 性 能 判 据 之 后 , 需要 决定 从 原始 特征 集合 中 选 定 最 佳 特征 集 的 
搜索 策略 。 通 常 有 三 种 策略 。 一 种 是 所 谓 的 前 向 搜索 策略 , 即 初始 特征 集合 为 空 
逐渐 增加 相关 特征 。 另 一 种 是 所 谓 的 后 向 搜索 策略 ， 即 初始 特征 集合 为 所 有 特征 ， 
逐渐 减少 无 关 特征 。 第 三 种 是 所 谓 的 双向 搜索 策略 , 既 在 每 一 轮 特征 选取 中 即 增 
加 相关 特征 ,又 去 除 无 关 特 征 。 显然 以 上 这 些 搜索 策略 与 特定 的 特征 分 类 性 能 判 
据 联 合 起 来 , 就 可 以 构造 不 同 的 过 滤 式 特征 选择 算法 。 





15.1.0. & 3 UBHIDEHE 


过 滤 式 特征 选择 方法 不 考虑 后 续 分 类 算法 ,或 者 说 其 特征 选择 使 用 的 分 类 性 
能 判 据 独 立 于 后 续 分 类 算法 。 更 加 直 白 的 说 法 是 , 过 滤 式 特征 选择 方法 的 分 类 性 
能 判 据 与 后 续 分 类 算法 无 关 。 与 过 滤 式 特征 选择 方法 不 同 , 包 事 式 特征 选择 直接 
使 用 后 续 分 类 算法 的 分 类 性 能 判 据 来 选择 最 优 的 分 类 特征 集合 , 这 样 就 不 需要 设 
计 新 的 分 类 性 能 判 据 来 选择 最 优 特征 集合 。 在 这 种 情况 下 ,由 于 分 类 算法 依然 理 
论 上 遵循 归 类 公理 , 因此 , 本 书 将 不 再 展开 论述 。 有 兴趣 的 读者 , 可 以 参考 周志 华 
教授 所 苦 《 机 器 学 习 》 回 。 



































15.1.3. BRASH 


ADE TURE IER PE A LS PEA ELS 1 2) 28 0:89 4) 28 TE SETA S E 
计 。 如 果 将 特征 选择 与 算法 的 分 类 性 能 判 据 结合 在 一 起 , 即 特征 选择 不 再 独立 于 
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学 习 算 法 的 分 类 判 据 设计 之 外 , 这 样 的 特征 选择 方式 称 为 嵌入 式 特征 选择 。 这 样 
的 分 类 学 习 算法 典型 代表 是 稀疏 学 习 。 有 兴趣 的 读者 可 以 自行 推导 。 





15.2 ”有 监督 特征 提取 模型 


在 实际 应 用 中 , 一 个 学 习 任务 的 输入 特征 不 一 定 是 其 输出 特征 。 比 如 , 一 个 
学 习 任 务 , 其 数据 输入 是 图 像 , 数据 输出 是 用 声音 说 出 这 幅 画 的 内 容 。 在 这 种 情 
况 下 , 输入 输出 的 特征 显然 不 同 , 但 其 输入 特征 蕴含 了 输出 特征 。 在 分 类 任务 中 
如 果 希 望 学 习 任 务 的 数据 输出 特征 维 数 低 于 数据 输入 特征 维 数 , 而 且 其 输出 特征 
不 要 求 是 输入 特征 的 子 集 , 则 该 任务 属于 有 监督 特征 提取 。 

在 数学 上 , 如 果 输 入 表示 为 (X,U, 六 ,Simx), 输出 表示 为 (Y,V,Y,Simy), Als 
么 有 监督 特征 选择 提取 只 要 求 p = dim(X) > dim(Y) = d, Vk, yx = (zy). 其 中 
ve) 是 一 个 从 p 维 到 a 维 的 函数 。 

本 节 将 介绍 一 个 著名 的 输入 输出 对 象 特征 截然 不 同 的 分 类 算法 ， 即 线性 判别 
分 析 ， 此 时 P() 是 一 个 线性 函数 。 





15.2.1 线性 判别 分 析 


线性 判别 分 析 是 经 典 的 用 于 分 类 问题 的 特征 提取 的 监督 方法 。 该 方法 主要 思 
想 是 将 高 维特 征 空间 的 样本 投影 到 低 维特 征 空间 , 投影 后 保证 样本 在 新 的 子 空间 
有 最 佳 的 可 分 离 性 。 下 面 首先 说 明 Fisher 线性 判别 式 的 二 分 类 问题 ， 然 后 扩展 到 
多 分 类 情形 。 


15.2.2 ”二 分 类 线性 判别 分 析 问 题 
假设 输入 样本 集合 为 X. = {xr urha 每 个 样本 zx 表示 为 p 维特 征 向 量 


vy = {ZH Zak Epk} > ug = (Urk, U2k) 表示 样本 zx 的 类 标 ， 显 然 wk, uzk € 
{0,1} 且 其 中 有 一 个 为 1 另 一 个 为 0。 线 性 判别 分 析 将 IN. 个 样本 投影 到 低 维 空间 
得 到 Y = {w;wuk} 忆 1， 使 样本 在 低 维 空间 具有 更 好 的 分 离 性 。 基 于 线性 判别 样本 
降 维 后 的 投影 , 利用 任何 分 类 器 可 更 容易 将 其 分 为 c 类 。 下 面 首先 以 c = 2 为 例 ， 
说 明 线性 判别 分 析 算法 的 设计 目的 。 

二 分 类 线性 判别 分 析 希 望 找 到 一 个 由 d 维 向 量 w 定义 的 投影 方向 , 将 样本 x 
投影 到 向 量 w 方 向 上 ,从 而 样本 维度 由 p 维 降 为 1 HE, 在 降 维 后 的 1 维 空间 样本 
可 分 性 更 好 。 现 根据 图 15.1 的 两 个 方向 的 投影 , 观察 哪些 因素 影响 投影 后 分 类 效 
FL, 为 设计 类 相似 性 映射 和 归 类 判 据 提供 依据 。 
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图 15.1. 二 维 数据 不 同 投影 方向 示例 











观察 图 15.1 可 知 , 右 侧 投影 方向 上 样本 分 类 效果 更 好 。 主 要 原因 是 右 侧 投影 
方向 上 两 类 样本 投影 中 心 离 的 较 远 , 两 类 样本 在 新 投影 空间 较 分 离 。 但 各 类 样本 
投影 中 心 (或 称 均值 ) 不 是 唯一 影响 分 类 效果 的 因素 , 如 图 15.2 所 示 。 





图 15.2 ”两 类 数据 不 同方 向 投影 后 的 均值 差 值 


从 图 15.2 可 知 , 样本 点 均匀 分 布 在 椭圆 里 , 投影 到 横 轴 上 时 能 够 获得 更 大 的 
中 心 点 间距 , 但 是 由 于 样本 投影 有 重 且 , 横 轴 方向 不 能 分 离 样本 点 。 投 影 到 纵 轴 
E, 虽然 中 心间 距 较 小 , 但 是 能 够 分 离 样本 点 。 因 此 我 们 还 需要 考虑 样本 点 之 间 
的 方差 , 方差 越 大 , 样本 点 越 难 以 分 离 。 因 此 , 能 够 使 投影 后 的 样本 类 中 心 尽 可 能 
分 离 、 同 一 类 中 的 样本 尽 可 能 紧 致 的 方向 , 是 分 离 效果 最 好 的 方向 。 也 就 是 说 , 选 
择 的 投影 方向 要 满足 归 类 公理 的 类 分 离 性 准则 和 类 紧 致 性 准则 。 








15.2.3 ”二 分 类 线性 判别 分 析 


用 于 二 分 类 问题 的 线性 判别 分 析 的 投影 空间 为 一 维 , 该 一 维 方 向 向 量 在 输 
入 特征 空间 中 可 用 w 表示 。 假设 选择 最 优 的 向 量 w, 使 在 该 方向 上 两 类 样本 分 
离 效 果 最 好 ,， 即 要 同时 满足 类 分 离 性 和 类 紧 致 性 准则 。 假设 类 输入 认 知 表示 为 
Xi =v, Xo = v2， 则 可 以 定义 类 输入 相 异 性 映射 。 具体 说 来 , 任 一 样本 x 与 类 
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Xai, Xo 的 类 相 异 性 映射 如 下 : 
Dsx (zx, X1) = wT (x — vi)(z — vi)Tw 
s (15.5) 
Dsx (x, X2) = w (a — v3)(z — v2) w 
根据 类 紧 致 性 准则 可 知 类 认 知 表示 要 满足 类 紧 致 准则 , 即 应 该 要 求 最 小 化 类 
内 方差 : 


N 
L(w) = min (x uixDsx (x9) 








k=1 
= min ( `X Dsx (zy, X1) + Y osi) 
D TREX TkEX2 
= minwT ( X (zy — vi)(zy — v1)" + b» (Ek — v2) (Tk 一 an) w 
M TKEX1 TkEX2 
= min wT Sww 
(15.6) 
id Sw zk 一 V1) (Zk 一 01) 了 十 Y (xg — ve) (ae — v2), PRAIA A 
TREX, TREX 
散布 总 和 。 


显然 类 输入 认 知 表示 为 Xi = vi Xo = ww 应 该 最 小 化 类 内 方差 (15.6)。 由 此 
可 以 得 到 v1, V2 的 数学 表达 式 : 


2n 





— ZkEX1 
ul 一 "CEST Xi (15.7) 
vi 为 类 X, 的 均值 ,其 中 X, 表示 第 一 类 的 样本 集合 , | Xi | 为 第 一 类 的 样本 
个 数 。 
v2 一 i (15.8) 
” | Xa | : 


v2 为 类 Xo 的 均值 ， 其 中 Xo 表示 第 二 类 的 样本 集合 ,| Xo | 为 第 二 类 的 样本 
个 数 。 
同时 ,根据 类 分 离 性 准则 可 知 ,类 认 知 表示 之 间距 离 应 该 最 大 ， 即 要 求 最 小 
化 (15.9): 


max (wT (v4 — v2)(v1 — v2) w) = max(w Sgw) (15.9) 
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其 中 , Sg WS iUt BE, Sp = (vı — v3)(v1 一 v3)T. 
同时 满足 类 紧 致 性 准则 和 类 分 离 性 准则 ,可 以 知道 ， 归 类 结果 应 该 最 大 化 目 
标 函 数 (15.10): 





wlSgw  |wT(v — v3)? 








J(w) 





(15.10) 


wl Sww wl Sww 
15.2.4 二 分 类 线性 判别 分 析 优化 算法 


要 得 到 最 优 的 归 类 结果 ， 必 须 求 目标 函数 (15.10) 的 最 大 值 。 这 需要 计算 
J(w) 关于 w 的 导数 ， 其 导数 为 0 时 对 应 的 w 为 最 优 的 投影 方向 。 由 此 得 到 公 
式 (15.11)。 


OJ(w) wT (vi — v2) wT (vi =) 7 
Ow wl Sww 2(v1 — vo) — 2 Sww 0 (15.11) 























wi (v — va) 


如 果 Sw 可 求 逆 ， 且 假设 为 常数 , 可 得 


wT Syw 
w = const x SW (v4 — v2) (15.12) 
HP, const 为 常数 。 根 据 公式 (15.12) 可 计算 最 优 的 投影 方向 , 进而 利用 wTz 得 
样本 z 的 投影 结果 , 根据 投影 结果 可 对 任意 样本 进行 分 类 。 
15.2.5 多 分 类 线性 判别 分 析 
原 空 间 类 X; 的 样本 均值 为 : 


Y 


TREX: 





w= 2 (15.13) 
原 空间 总 体 均值 (或 总 样本 中 心 ) 为 : 
Ys 
2 zkEX 
v= 全 | (15.14) 


Y; 样本 均值 为 : 


1 $ 
a (15.15) 
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对 于 二 分 类 问题 , 可 以 证 明 等 式 (15.16) : 





2 2 2 zk $2 cet 2, Sk 
TREX, TRCXi TKEX2 
[X;[wT(v; — v)(v; — v)Tw = Y Xia" | =$ 
» 2 IX; |Xl|X2] 


x5 Tk E Tk 十 X Tk T 
" TREX: TREX. TkEX2 aij 














IXil |Xil|X2| 
- (pe = are) 
(Geen v) ae) 
LC v3)(vi — va)Tw 








|X| 
= wl (v — v2)(v1 — v9)Tw 
(15.16) 
根据 等 式 (15.16)， 可 以 将 线性 判别 分 析 扩 展 到 c 类 分 类 问题 ， 此 时 需要 找到 
最 优 的 投影 矩阵 W (d x (c — 1))« WER c 与 类 Xli € {1,2,--- ,c}) 的 相 异 性 映 
射 为 下 式 : 


Dsx (x, Xi) = trace(W7 (x — vi)(z — vj)? W) (15.17) 
X sk 
其 中 , vi = 80 为 每 类 的 中 心 (或 均值 )。 





| Xi | 
与 二 分 类 类 似 , 投影 后 的 样本 归 类 结果 要 满足 类 紧 致 性 准则 , 通过 样本 与 所 
在 类 中 心 距离 总 和 度量 , 形式 化 为 下 式 : 


mintrace(W" SwW) = mins » Dsx (zy, Xi) (15.18) 
i-lzk€X, 
投影 后 样本 归 类 结果 要 满足 类 分 离 性 准则 , 通过 各 类 中 心 与 总 类 中 心 距离 总 
和 度量 ， 形 式 化 为 下 式 : 


max trace(WT SgW) = max |X;|trace(WT(v; — v)(v; - v)TW) (15.19) 
ici 
投影 后 的 类 间 散 布 矩 阵 是 WTSEW, 投影 后 的 类 内 散布 是 WTSwW, 这 两 
个 和 矩阵 都 是 c x c 矩阵 。 在 新 的 投影 空间 ,我 们 希望 各 个 类 中 心 尽量 远离 , 通 
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过 各 类 中 心 与 总 类 中 心 距离 最 大 实现 , 即 最 大 化 WTSpW; 同时 希望 来 自 同 
一 类 的 样本 尽 可 能 接近 ,通过 样本 与 所 在 类 中 心 距离 总 和 最 小 实现 ， 即 最 小 化 
trace(ITTTSw 歼 )。 散 布 矩 阵 可 以 通过 行列 式 度量 ,行列 式 是 特征 值 的 乘积 ， 而 特 
征 值 给 出 沿 着 它 的 本 征 向 量 的 方差 。 因此 用 于 多 分 类 问题 的 线性 判别 分 析 即 最 大 
化 下 面 的 分 类 判 据 : 





trace(WTSpW 
HW) = aeS 
Sw Sp 的 最 大 本 征 向 量 是 解 , 根据 求解 的 W 可 构造 分 类 器 。 
线性 判别 分 析 以 分 类 为 目的 ,寻找 一 个 低 维 空间 , 在 这 个 空间 可 以 使 投影 后 
的 样本 分 离 效果 最 好 。 度 量 低 维 空间 W 的 好 坏 的 标准 是 类 紧 致 性 准则 和 类 分 离 
性 准则 。 具体 是 通过 类 内 散布 最 小 化 和 类 间 散 布 最 大 化 来 实现 , 类 内 散布 是 类 内 
样本 与 该 类 均值 距离 平方 和 ,类 间 散 布 是 所 有 样本 与 总 均值 方差 。 线性 判别 分 析 
算法 通过 计算 类 内 散布 和 类 间 散 布 得 到 具有 最 优 分 类 效果 的 维度 约 减 空间 。 


(15.20) 





延伸 阅读 


本 章 的 数据 降 维 问题 只 讨论 了 有 监督 的 多 类 降 维 情形 。 实 际 上 , 即使 对 于 有 
监督 多 类 数据 降 维 ， 本 章 讨论 的 也 非常 有 限 。 这 方面 尚 有 大 量 的 工作 。 

对 于 无 监督 的 情形 ， 也 有 两 种 多 类 数据 降 维 模型 : 无 监督 多 类 特征 选择 模型 
和 无 监督 多 类 特征 提取 模型 。 在 文献 中 , 常见 的 无 监督 多 类 特征 选择 模型 是 子 空 
间 聚 类 模型 四， 常见 的 无 监督 多 类 特征 提取 模型 是 谱 聚 类 模型 四。 有 兴趣 的 读者 
可 以 自行 研究 。 


习 题 
L 试 给 出 一 个 数据 集 , 并 给 出 它 的 二 分 类 线性 判别 分 析 。 


2. 试 实现 Relief 特征 选择 算法 。 
3. 试 查找 本 章 未 论述 的 一 种 多 类 数据 降 维 算法 , 并 证 明 其 符合 归 类 算法 设计 准则 。 
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一 花 一 世界 ， 一 叶 一 如 来 。 
一 一 住 鸡 足 石 钟 寺 表 法 门人 广 智 编 《 益 州 高 山野 竹 禅 师 后 录 。 郑 二 》 


对 于 分 类 算法 ， 人 们 最 终 关心 的 是 其 分 类 能 力 好 坏 。 在 计算 能 力 的 容许 范围 
le ee ase aes sauces ipai d iy en gs 
能 完成 任务 ,人们 不 怕 麻 烦 , 也 不 怕 什 么 复杂 度 。 如 果 复 杂 比 简单 有 效 , 就 弃 简 
pei 对 于 分 类 问题 , 丑小鸭 定理 告诉 我 们 , 选用 合适 的 特征 空间 才 有 效 。 但 
是 合适 的 特征 空间 不 一 定 是 原 空间 , 更 不 一 定 是 原 空间 的 降 维 空间 ， 有 时 倒 有 可 
能 是 原 空 间 的 升 维 空间 。 毕 竞 , 从 更 复杂 的 空间 更 容易 发 现 和 理解 子 空间 的 性 质 。 
在 原 空间 ， 有 可 能 出 现 当局 者 迷 的 情形 。 苏 轼 说 得 好 “不 识 庐山 真面目 ， 只 缘 身 
在 此 山中 ”。 当 空间 维 数 升 高 之 后 , 在 更 高 维 数 上 进行 研究 , 可 能 更 容易 发 现 原 空 
间 的 性 质 。 就 像 前 面 分 析 过 的 , 这 也 与 奥 卡 姆 剃刀 准则 相 容 。 更 直 白 的 说 法 是 ,如 
果 简 单 的 不 行 , 就 整 复 杂 的 。 因此 , 在 本 章 里 , 分 类 模型 采取 的 基本 假设 是 , 输出 
空间 的 维 数 高 于 输入 空间 的 维 数 。 


16.1 核 方法 


前 面 的 各 章 , 除去 神经 网 络 , 类 表示 大 多 是 线性 函数 或 者 局 部 线性 函数 ， 应 
该 说 , 这 样 的 类 表示 能 力 有 限 , 现实 应 用 需要 远 比 线性 函数 空间 表示 能 力 更 强 的 
假设 空间 。 现实 应 用 中 数据 通常 是 非 线 性 可 分 的 , 即 目 标 概念 通常 不 能 用 简单 线 
性 函数 表示 ， 这 就 需要 寻找 更 加 抽象 的 非 线性 可 分 的 特征 空间 来 表示 类 认 知 表 
示 。 这 也 是 深度 学 习 胜 于 一 般 分 类 算法 的 原因 。 但 是 ,深度 学 习 由 于 类 认 知 表示 
过 于 复杂 , 是 黑箱 模型 ， 难 以 解释 ， 因 此 ,对 于 要 求解 释 性 的 学 习 任务 不 可 接受 。 

为 了 解决 在 输入 空间 中 直接 表达 过 于 复杂 的 类 认 知 表示 会 导致 黑箱 的 问题 ， 
一 个 直观 的 想法 是 在 比 输入 空间 更 加 高 维 的 空间 表达 类 认 知 表 示 。 一 般 说 来 ， 从 
低 维 空间 变换 到 高 维 空间 时 , 如 果 其 变换 映射 是 非 线 性 映射 , 则 在 低 维 空间 中 需 
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要 复杂 非 线 性 才能 表示 的 类 ,到 高 维 空间 中 以 后 可 能 用 线性 函数 就 可 以 表示 。 比 
如 在 低 维 空间 不 可 分 的 异 或 问题 , 变换 到 更 高 维 的 空间 时 就 变 得 线性 可 分 。 

根据 以 上 分 析 ， 可知 此 时 设计 的 分 类 算法 的 输出 空间 维 数 一 定 大 于 输入 空 
间 维 数 。 此 时 , MARRY (X,U, X, Simx) 输出 表示 为 (Y, V, Y,Simy), p = 
dim(X) < dim(Y) = d, Vk, yx = p(zk)。 其 中 yp() 是 空间 变换 映射 。 需要 指出 的 
是 , 在 目前 的 假设 下 , d > p, 甚至 d > N, 有 些 时 候 , d = too. 这 导致 空间 变换 
映射 所 在 的 假设 空间 过 于 巨大 , 因而 不 能 直接 计算 最 优 的 yp()。 由 于 v) 是 非 线 性 
映射 , 其 复杂 度 可 能 远 远 高 于 N, 甚至 N?, 因此 , 如 果 能 不 直接 计算 p(), 而 有 其 
他 更 简单 方法 来 代替 将 是 一 件 好 事 。 幸运 的 是 , 在 支持 向 量 机 算法 和 很 多 分 类 算 
法 中 , 并 不 需要 直接 知道 p()， - VEVI, (zy) T p(x) 即 可 。 因此 ,如果 令 
VEVL (zh 21) = p(z) p(x); Wi &(,) 已 知 , 则 不 需要 计算 p()。 这样 的 处 理 技巧 
称 为 核 方法 。 下面 将 以 支持 向 量 机 来 讨论 。 





16.2 ” 非 线性 支持 向 量 机 


对 于 非 线性 可 分 二 分 类 问题 , Boser, Guyon 和 Vapnik 为 解决 该 问题 引入 了 
核 方 法 外 ,该 方法 通过 选择 使 用 合适 的 核 函 数 将 训 经 E 非 线 性 映射 到 高 维 空 
间 , 不 增加 参数 个 数 , 同时 提高 线性 表示 机 制 的 分 类 能 力 。 目 前 已 经 有 许多 核 函 
数 ， 本 节 将 介绍 常用 的 核 函 数 。 利 用 核 函数 可 以 设计 a in 


16.2.1 ”特征 空间 


学 习 阶段 类 认 知 表示 的 计算 复杂 E 对 于 特定 的 
学 习 问题 应 该 选择 与 其 匹配 的 数据 表示 。 改变 数据 的 表达 形式 是 一 个 普通 的 预 处 
理 策略 : 


© = (ris22, tp)" > p(x) = (1(7), (2), , palz))™ 


该 策略 表示 将 数据 输入 特征 空间 映射 到 数据 输出 特征 空间 。 在 数据 输入 特征 空 
不 能 使 用 线性 函数 分 开 的 数据 , 在 数据 输出 特征 空间 中 就 可 能 线性 可 分 。 a 
展示 了 一 个 将 线性 不 可 分 的 二 维 输入 特征 空间 映射 到 线性 可 分 的 二 维特 征 空间 的 
例子 。 





16.2.2 mH 


如 果 想 用 支持 向 量 机 对 非 线性 的 特征 集合 进行 分 类 表示 , 就 需要 应 用 一 个 固 
定 的 非 线 性 映射 , 通过 该 映射 将 数据 映射 到 数据 输出 特征 空间 , 在 数据 输出 特征 
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图 16.1. 可 以 简化 分 类 问题 的 非 线 性 映射 


空间 上 使 用 支持 向 量 机 。 假 设 数 据 输出 特征 空间 上 的 线性 判别 函数 为 : 


d 
f(x) = X widi(x) +b = wT g(x) +b (16.1) 


而 支持 向 量 机 分 类 表示 的 重要 性 质 是 w = Y axuxp(zx)， 由 此 可 以 知道 数据 给 
k=1 
出 特征 空间 上 的 线性 判别 函数 为 : 


f(z)= Dente ) .2(z)) +b (16.2) 


核 函 数 的 方法 就 是 在 数据 输出 特征 空间 中 直接 计算 内 积 (yp(zi) : p(z)), 将 特征 映 
射 和 内 积 两 个 步骤 融合 到 一 起 。 
核 函数 K 的 定义 为 : 对 所 有 z,z € X, K 满足 : 


K(x, 2) = (p(x) - ez) (16.3) 


其 中 gp 是 从 数据 输入 特征 空间 到 数据 输出 特征 空间 的 映射 。 

在 已 知 特征 映射 v 的 情况 下 ， 可 以 通过 计算 内 积 (P(zk) - v(z)) 得 到 核 函 数 
K(z,z)。 但 是 正如 前 面 分 析 , 特征 映射 vo 很 难 构造 出 来 , 而 K(x, z) 有 时 更 容易 
构造 。 因此 , 需要 判断 给 定 的 函数 K(z,z) 是 否 为 核 函数 。 

对 于 这 个 问题 , 数学 家 早 就 给 出 了 核 函 数 的 充 要 条 件 为 : 

定理 16.1 ( 核 函数 的 充 要 条 件 ) EK: Xx X— RJESURER EG W K(x, z) 
为 核 函数 的 充 要 条 件 是 对 于 任意 zk € X,k = 1,2,---, N, 天 (zz) 对 应 的 Gram 
ABI: 

K = [K (zp, «1)|wxw (16.4) 


EF EEE. 
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对 于 某 个 具体 的 函数 K(x, z) 判断 其 是 否 为 核 函 数 ， 要 根据 任意 有 限 输入 集 
fr {z122 ,ZN} 计算 Gram 和 珑 阵 并 判断 其 是 否 为 半 正 定 的 ,这 并 不 是 一 项 简 
单 的 计算 。 因 此 在 实际 问题 中 常 选用 己 有 的 核 函 数 。 
16.2.3 BARA 


(1) q 次 多 项 式 : 
K(zk,7) = (x ay + 1)? (16.5) 


其 中 q 为 参数 可 以 任意 选择 , 当 g = 2,p = 2 INA: 
K(z,z) = (zTa +1)? 
= ((z)1(2)1+ (z)2(2)2 + 1)? 
= 1+ 2(x)1(z)1 十 2(z)z(z)2 十 2(z)i(z)a(z)1(z)2 
+ ((x)1)?((2)1)?((x)2)?((2)2)? 
它 对 应 的 特征 映射 函数 为 : 


(16.6) 


(x) = [1, V2(x)1, V2(x)a, vV/2(x)1(x)o. ((x)1)?, ((x)9)?]* 
(2) 1 IER R: 


_ al 
K (£p, £) = exp (tg) 


该 函数 定义 的 是 球形 核 , 其 中 zx 为 球 中 心 , 参数 o 为 球形 半径 可 以 自由 定义 。 
(3) S 形 函 数 : 
K (zy, x) = tanh(2zT 2, + 1) 
该 函数 中 的 tanh(-) 与 S 形 函 数 形状 相似 , 区 别 在 于 该 函数 取 值 在 [71, +]. 
除了 以 上 较 流行 儿 种 核 函 数 外 , 还 有 一 些 其 他 的 核 函数 。 也 可 以 根据 问题 的 
具体 需要 自行 定义 核 函数 , 通过 它 隐 式 地 定义 特征 空间 。 


16.2.4” 非 线性 支持 向 量 机 


使 用 上 述 的 核 函 数 可 以 将 非 线性 可 分 的 分 类 问题 转化 成 线性 可 分 的 支持 向 量 
机 问题 。 该 方法 首先 将 训练 数据 根据 核 函 数 转化 成 内 积 形式 ,之 后 再 使 用 线性 可 
分 的 支持 向 量 机 方法 对 原始 训练 数据 进行 分 类 表示 。 
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假设 选取 核 函 数 K(x, z) 以 及 适当 的 参数 C, 则 最 优化 问题 为 : 


N NON 
于 - 
maxa W (a) = Soo x 5 = uyuj og oi K (xp, £1) 


k=1 k=1 I[=1 
N 
s.t. ouo. =0 
k=1 
O< aq; < Cik=1,2,-->,N (16.7) 


求解 得 到 最 优 解 a, 选择 a* 的 一 个 正 分 量 0 < o5 < C. 计算 控制 参数 为 : 


N 
w* 二 > Uka% Tk (16.8) 
k=1 
N 
b*-u- > oiusK (we, ai) (16.9) 
k=1 
此 时 得 到 超 平面 函数 为 : 
N 
F(x) = Y okurK(z, zy) + 0° (16.10) 
k=1 


由 于 核 函 数 的 高 性 能 使 得 支持 向 量 机 方法 应 用 领域 更 加 广阔 , 同时 不 同 的 核 
函数 具有 不 同 的 特性 , 也 使 得 对 于 不 同 的 数据 分 类 处 理 选择 增多 。 


16.3 多 核 方 法 


上 面 介 绍 了 核 函数 方法 以 及 常用 的 简单 核 函数 。 实 际 情况 中 只 使 用 简单 核 函 
数 并 不 适用 于 某 些 数据 , 由 此 想到 了 合成 简单 核 函 数 构造 新 的 核 函 数 欠 。 假设 两 
个 有 效 的 简单 核 函数 (ac, >) 和 Ko Gn, >)， 可 以 构造 新 的 核 函 数 : 
chy (x, 2) 
K(x,z) = 4 Ki(z,z) + Ko(v,z) 


Kı (z, z) - K(x, z) 


其 中 c 为 常数 ， K (z,z) 是 有 效 的 核 函 数 。 
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构造 新 核 函数 的 不 同 的 简单 核 函数 还 可 以 使 用 训练 集合 zx 不 同 的 子 集 。 该 方 
法 可 以 融合 不 同 数据 域 的 信息 。 假设 训练 数据 包含 两 种 表示 A, B, 可 以 根据 表示 
将 训练 集合 z 表示 为 z4, zB， 通过 简单 核 函 数 构造 新 的 核 函 数 为 : 





Ka(xa,2a) + Kn(zp, zn) = pA(TA)  ea(24) + PB(TB) PB(zB) 
= v(x)" 9(z) (16.11) 
= K(z,z) 
其 中 z = [rap] 为 两 种 表示 方法 相连 接 , 对 应 于 za,zB 的 两 个 核 函数 相 加 相当 


于 连接 后 的 特征 向 量 之 问 点 乘 。 
由 两 个 简单 核 函 数 联想 到 多 个 简单 核 函 数 构造 新 核 函数 ， 如 : 


K(z,z) = > KG.) 
t=1 


通过 对 多 个 核 函 数 求 和 构造 新 的 核 函数 避免 了 挑选 最 优 核 函 数 的 过 程 。 该 方法 后 
来 又 发 展 出 加 权 求 和 方法 : 


K(a,z) = nk. z) 


= 


a 


BRE m 这 0， 也 可 以 限制 in = 1。 可 以 看 出 这 是 一 种 凸 合成 ,使 用 合成 的 核 函 


数 痊 代 优化 问题 中 的 简单 核 函 数 就 称 为 多 核 学 习 。 使 用 合成 的 核 函 数 后 目标 函数 
变 为 : 


此 时 除了 需要 计算 支持 向 量 机 的 参数 ax 外 还 需要 计算 核 函数 权重 mh。 最 后 计算 
得 到 的 超 平面 函数 也 包含 合成 核 函数 : 


N m 
z)- a OU * mA (x, ve) + b* 
k=1 t=1 


也 可 以 将 简单 核 函 数 的 权重 作为 输入 数据 z 的 函数 : 


N A m 
W(a) = > ok 一 5 2 > uj uoo] 5 re Ka rk, x1) 
k=1 k=1 1 #41 





N m 
f(z)e x OU X m(x | Or) K(x, zx) + b* 
t=1 


其 中 ©, 为 门限 参数 , 同样 作为 支持 向 量 机 的 参数 被 计算 。 
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实际 生活 中 数据 具有 多 种 表示 形式 , 如 语音 识别 中 数据 可 以 是 声音 信息 和 层 
形 图 片 。 对 于 这 种 数据 一 般 的 处 理 方法 是 分 别 对 这 两 种 表示 生成 不 同 的 分 类 器 ， 
再 对 结果 进行 整合 。 多 核 学 习 方 法 通过 在 不 同 表示 数据 上 使 用 不 同 的 核 函数 生成 
一 个 分 类 器 来 简化 学 习 过 程 。 














W idt 

对 于 一 个 特定 的 学 习 任 务 , 需要 采集 什么 样 的 数据 特征 属于 领域 专家 的 研究 
领地 。 换 句 话 来 说 , 数据 如 何 采 集 或 者 收集 属于 领域 专家 的 任务 , 这 个 时 候 的 数 
据 特 征 设计 任务 , 是 典型 的 从 无 生 有 问题 。 

一 旦 数据 给 定 , 就 需要 将 其 中 蕴含 的 未 知 知识 提取 出 来 , 这 就 是 所 谓 的 机 器 
学 习 。 自然, 在 数据 给 定 以 后 , 现 有 的 数据 特征 不 一 定 完全 符合 知识 提取 的 需要 。 
相对 于 需要 提取 的 知识 ， 有 时 宛 余 ,， 有 时 过 于 复杂 。 如 果 克 余 , 需要 特征 降 维 使 
之 不 宛 余 ; 如 果 过 于 复杂 , 需要 空间 变换 使 之 简单 化 ,， 如 果 该 空间 维 数 较 原 空间 
为 大 ， 即 为 特征 升 维 。 综 上 所 述 , 特征 降 维 与 特征 升 维 应 该 称 为 特征 再 生 。 特征 
降 维 与 特征 升 维 都 是 基于 原始 的 数据 集 所 做 的 特征 变换 ,是 原始 特征 的 特征 青 生 
问题 。 

对 于 特征 升 维 问题 ， 核 方法 是 最 常见 的 方法 。 大 多 数 的 机 器 学 习 方法 都 存 
在 特征 升 维 版 本 ， 即 其 核 方法 版 本 。 比 如 聚 类 有 核 K-means 方法 ， 数 据 降 维 
算法 有 核 主 成 分 分 析 、 核 Fisher 线性 判别 等 。 这 方面 的 一 个 简单 总 结 可 以 参考 
专著 [4-6]. 

当然 , 数据 特征 有 时 也 会 缺失 。 如 果 缺 失 , 需要 补 齐 。 对 于 数据 补 齐 的 机 器 学 
习 问 题 , 文献 中 已 经 有 很 多 研究 , 如 多 源 数据 、 和 矩阵 填充 等 。 更 进一步 ， 数据 集中 
有 时 含有 的 样本 也 会 严重 缺失 。 这 时 会 有 迁移 学 习 、 非 平衡 数据 等 学 习 范 式 。 需 
要 指出 的 是 , 这 些 问题 也 是 服从 归 类 公理 的 , 可 以 从 机 器 学 习 公 理化 的 角度 对 这 
些 问 题 进行 描述 ， 本 书 第 17 章 将 简略 讨论 多 源 数据 学 习 。 对 于 其 他 的 机 器 学 习 方 
式 , 有 兴趣 的 读者 可 以 自行 研究 。 











J BH 
1. 试 给 PCA 的 核 版 本 , 并 分 析 其 与 归 类 公理 的 一 致 性 。 


2. 试 给 出 Fisher 线性 判别 的 核 版 本 , 并 分 析 其 与 归 类 公理 的 一 致 性 。 
3. 试 给 出 核 K-means Wid, 并 分 析 其 与 归 类 公理 的 一 致 性 。 
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在 数据 采集 过 程 中 , 经 常 发 生 所 谓 的 观察 者 偏差 (observer bias) 现象 。 比 如， 
对 一 个 事情 ,只 采集 赢 者 的 信息 ， 而 忽略 败 者 的 信息 ， 就 会 导致 所 谓 的 幸存 者 偏 
#2 (survivorship bias) 现象 ; 反之 , 就 会 导致 不 幸 者 偏差 或 者 墨 菲 定律 CMurphy's 
law)。 因 此 , 在 现实 生活 中 , 为 了 避免 观察 者 偏差 现象 ,对 于 同一 个 对 象 的 描述 ， 
通常 的 信息 来 源 不 会 使 用 一 个 , 而 是 多 个 。 著 名 的 罗 生 门 现象 和 盲人 摸 象 故事 都 
生动 地 说 明了 这 一 点 。 显然 ,多 个 数据 源 比 单个 数据 源 一 般 包含 更 多 信息 , 这 有 
利于 学 习 。 在 对 象 有 多 个 数据 源 描述 的 情况 下 ， 如何 归 类 ? 归 类 是 否 还 遵循 归 类 
公理 ? 


本 章 将 回答 这 个 问题 ， 并 明确 指出 , 归 类 公理 对 多 源 数 据 学 习 依然 成 立 。 


17.1 多 源 数据 学 习 的 分 类 


给 定 N 个 对 象 O = {01,02,… ,on}， 如 果 已 知 工 个 视角 数据 输入 特征 表示 ， 
第 1 个 视角 下 的 数据 输入 特征 表示 为 X! = fl ah, cl}, 其 中 1<1<L, 其 
对 应 的 类 外 延 表示 为 U! = [ullas 
本 书 中 , 暂时 只 处 理 比较 简单 的 情形 , 即 VI, c! = c. IER, 
e 如 果 c= 1, 对 应 的 是 单 类 多 源 数据 问题 ; 
e lil c z 2, 对 应 的 是 多 类 多 源 数 据 问 题 。 


17.2 单 类 多 源 数 据 学 习 


对 于 单 类 多 源 数 据 问题 ， 又 分 两 种 情况 。 一 种 是 假设 每 个 视角 下 的 数据 都 是 
完整 无 缺 的 ， 另 一 种 假设 某 些 视角 下 的 数据 存在 缺失 。 第 一 种 假设 称 为 完整 视角 ， 
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第 二 种 假设 称 为 不 完整 视角 。 下 面 分 别处 理 。 


17.2.1 ”完整 视角 下 的 单 类 多 源 数据 学 习 

在 完整 视角 下 ,本 书 讨论 两 个 单 类 多 源 数 据 学 习 的 例子 。 

一 个 是 将 单 类 多 源 数据 学 习 看 做 回归 问题 ， 另 一 个 是 将 单 类 多 源 数据 学 习 看 
做 非 负 矩阵 分 解 问题 。 下 面 分 别 讲解 。 


1. 多 源 数据 回归 


对 于 单 类 问题 ,如 果 对 于 O = (01,05 ,ov} 有 一 个 整体 特征 表示 2 = 
1,22, zv p 则 第 个 对 象 ok 在 第 1 个 视角 下 的 特征 表示 为 式 , HP <1 < Le 
如 果 所 有 的 视角 数据 都 是 从 这 个 整体 特征 表示 的 一 个 投影 得 到 ,， 则 可 以 假设 
Vl, Wz 是 算法 实际 输出 部 分 。 由 此 可 以 知道 上 述 问题 可 以 化 成 回归 问题 来 处 理 。 


zo cxi za Wa 
Z2 z z2 W!zs 

此 时 ，X: = , Y! : X! = (z,2'), Y = (z,W!z), 
ZN zh zy W'zn 


其 中 W 是 投影 函数 ，U?! = [1,1,… Uy, V = [1,1,… Ry RAY 
的 单 类 多 源 数据 学 习 输 入 可 以 表示 为 (X, UX" Dsx)， 其 输出 可 以 表示 为 
(Y, V, Y Dsy:). 

理想 情形 下 ,VIVk, zk = W'z, 应 该 成 立 。 这 个 假设 等 价 于 类 表示 唯一 公理 成 
立 。 但 在 实际 情形 下 , 第 1 个 视角 的 实际 数据 特征 表示 很 难 是 一 个 数据 集 的 投影 ， 
即 类 表示 唯一 公理 一 般 不 成 立 。 因 此， 由 类 一 致 性 准则 可 以 知道 应 该 最 小 化 目标 
函数 (17.1): 


N 
D(X', Y!) = D((z, a!), (z, W'z)) = V 7 dist(z W'z,) (17.1) 
k=1 
如 果 考 虑 在 性 能 相同 的 情况 下 表示 的 简单 性 , 即 奥 卡 姆 剃刀 准则 ， 需 要 将 表 
示 W!, 2 的 复杂 性 考虑 进 目标 函数 (17.1) 中 去 , 这 时 的 目标 函数 变 为 (17.2): 


N 
D(X4,Y") = D((z, x), (z, W'z)) = Y dist (xt, W'z,) + CID1(W') + ChD0(Z) 
k=1 
(17.2) 
其 中 , VLCI > 0, V, C) 2 0, VLO (W!) > 0 表示 W! 的 复杂 度 , VI, OS(Z) > 0 
dem 2 的 复杂 度 。 
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同时 考虑 所 有 视角 , 类 一 致 性 准则 要 求 最 小 化 (17.3)。 


L L 
Y DE Y= Dj, 2), (z, W'z)) 
l=1 | (17.3) 
L N L L 
= M >》 dist(z}, W'z) + X C191 (W') + M C3902(2) 
l=1 k—1 l=1 1 


要 想 求 出 VI, W'A Z, 就 需要 给 出 dist(xl, Wz), D1(W?) 和 O3(Z) 的 具体 
Text. teu: 
dist(zh, W'z.) = ||xl, — W'zell? 








1 wt. 
dist (zh, W'z,) = log (1 + -Wal ) 
Oo 


91(W!) = Ime 
= x lel 
k=1 


2. 多 源 非 负 矩阵 分 解 


如 果 知 道 所 有 视角 中 的 数据 值 都 是 非 负 的 ， 比 如 对 于 同一 个 对 象 , 既 有 图 像 
数据 ， 又 有 文本 数据 ， 显然 这 些 数据 值 都 非 负 。 

同样 地 , 假设 对 于 O = (01,02, ,on} 有 一 个 整体 特征 表示 Z = {z1, z2,:…， 
zn} WE k NRZ ok 在 第 1 个 视角 下 的 特征 表示 为 zl. 其 中 1< 1 < Le 并 
FL, Vk, zy 中 的 每 个 分 量 非 负 ,VkVL, zt 中 的 每 个 分 量 也 非 负 。 

如 果 所 有 的 视角 数据 都 是 从 这 个 整体 特征 表示 的 投影 映射 加 一 个 随机 噪声 
向 量 得 到 ， 则 可 以 假设 V, We + s! 是 算法 实际 输出 部 分 , 其 中 s 是 一 个 噪声 
Vaya, W 中 的 所 有 数值 非 负 。 由 此 可 以 知道 上 述 问题 可 以 化 成 回归 问题 来 处 


zi ti zo Wig si 





z2 zl yi- z2 W!z34- sl x= TUM y 
zn xh | zy W'zy 十 shy 
(z,W'z+s'), 其 中 Wi! 是 投影 函数 , U! =[1,1,---, Fy V! =([11,---, Uy 
易 知 此 时 的 单 类 多 源 数 据 学 习 输 入 可 以 表示 为 (X UX", Ds), 其 输出 可 以 表 
m Y. Vi,Y', Dsy:)。 
RUE, ViVk, zy = Wey + sl 应 该 成 立 。 这 个 假设 等 价 于 类 表示 唯一 
理 成 立 。 但 在 实际 情形 下 , 这 不 可 能 。 因此 , 由 类 一 致 性 准则 可 以 知道 应 该 最 小 化 
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目标 函数 (17.4): 
N 
D(X', Y*) = D((z, z!), (z, W'z + s!) = V ^ dist(zh, W'z, + sh) (17.4) 
k=1 
如 果 考 虑 在 性 能 相同 的 情况 下 表示 的 简单 性 ， 即 奥 卡 姆 剃刀 准则 ， 需 要 将 表 
ZR W!, z, s! 的 复杂 性 考虑 进 目标 函数 (17.4) 中 去 , 这 时 的 目标 函数 变 为 (17.5): 





D(X!, Y?) = D((z,2"), (z Wiz F s')) 


N 
= > dist(z,, Wee + sk) + CL93(W!) + C402(2) + C4Ds(50) 
(17.5) 


其 中 , vi, CE > 0, VI, Ch > 0, VILO1(W") > 0, D2(Z) > 0, S! = [sl, sb, --- , shy], 
D3(S') 表示 S 的 复杂 度 。 
同时 考虑 所 有 视角 ， 类 一 致 性 准则 要 求 最 小 化 (17.6): 
L L 
> AD(X,Y*) = Y AD(z, 21), (2, W'z + 9!)) 
l=1 l=1 
L N 


= 3 X X dist (ah, Wk + sh) (17.6) 
E k=1 


L 
Ec D1(W!) + C323(Z jest 


其 中 ， X^. Vl, Àj > 0. 

特别 地 ， 4L-2, catty, W'z, +s) = |xl  W' zy, — sL|?, Vi, C} = 0, C2 = 
m 92(Z) = lZla = Xl). C$ = o4, CZ = as; VL, 93(S") = ||S'||, WAT 
以 导出 文献 四 中 的 RHTL 模型 。 


17.2.2 ”不 完整 视角 下 的 单 类 多 源 数据 学 习 

在 现实 情形 中 ,有 时 会 遇 到 各 种 意外 ， 比 如 采集 设备 发 生 故 障 等 ， 这 就 使 得 
有 些 视角 采集 到 的 数据 有 缺失 、 不 完整 。 因 此 , 在 不 完整 视角 下 , 一 个 自然 的 假设 
是 , 至 少 存在 1, 使 得 在 第 ! 个 视角 下 , XU 中 的 数据 值 有 缺失 。 这 样 ， 自 然 希 望 得 
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SU fft T2 h E UE IS ERA A «Ha, 其 中 x! 非 缺 
失 的 部 分 与 Y" 中 的 相同 位 置 数据 应 该 相同 , 即 Po, (X") = Po (Y). 

用 标准 的 归 类 语言 来 描述 ， 就 是 : 归 类 输入 为 V1, (X , U', 和 Dsx)， 归 类 输 
出 为 V1, (Y, V, Y! Dsy:)。 因 为 是 单 类 , 每 个 视角 信息 完全 ， 因 此 每 个 视角 对 应 
的 类 表示 应 该 一 致 , 即 VI, X! = X, Y! Y. 

BREY =W e RON, 输出 的 各 个 视角 数据 应 该 是 W 的 投影 , 但 是 实际 
是 有 误差 的 ， 由 此 可 以 定义 Dsy (yk Y*) = Dsy: (yk W) = |y 一 Hiwx 上 ,这 里 
W = (wi, wa,--- ,wnN), H! € R**4, y! € RY. 

根据 类 紧 致 性 准则 , 对 于 第 1 个 视角 , 应 该 最 小 化 目标 函数 (17.7): 


N N 
DDsyi(yh,Y) = Y ly — A well? (17.7) 
k=1 k=1 


综合 所 有 视角 ， 在 约束 VI, Po(X') = Po,(Y') 下 ， 应 该 最 小 化 目标 函 
数 (17.8): 


N 


L PB oN 
3 S Dsy (vi Y) = 37 lk — wel? (17.8) 
l 


1 k=1 l=1 k=1 


详细 的 算法 推导 请 参考 文献 2]。 


17.3 ”多 类 多 源 数 据 学 习 


如 果 ce > 2, 更 进一步 假设 VILU! — U. 则 可 以 知道 对 象 集合 O 在 第 1 个 视角 
下 数据 输入 特征 表示 X! 对 应 的 类 内 部 表示 为 (XL Simy), 其 第 i 类 的 类 内 部 表 
示 为 (X1 Simyi). 

如 果 认 为 各 个 视角 是 互补 的 , 因此 , 可 以 假设 第 大 个 对 象 wm 可 以 被 zh 完全 表 
示 , 这 里 zx = (ziT, (2)? ++ (aL)T)T。 此 时 , 对 应 的 类 内 部 表示 为 (X, Simx)。 
特别 地 ,其 第 ;类 的 类 内 部 表示 为 (Xi Simx,), 其 中 X; = (X4, X2, X2). 
因此 , 在 这 样 的 假设 下 ， 多 源 数据 与 单 源 数据 的 处 理 方式 相同 。 
本 节选 用 多 源 数据 C-means 算法 来 说 明 这 一 点 。 此 时 , 假设 XT © gm, X} 


为 Ro 中 的 一 个 向 量 ,由 此 可 知 ,Xi 为 Re 中 的 一 个 向 量 , 其 中 Yo = p 

=a 
因此 , 可 以 知道 在 每 个 视角 上 ,由 于 类 唯一 表示 公理 成 立 , 归 类 公理 成 立 ， 
此 , 最 佳 的 聚 类 结果 应 该 遵循 类 紧 致 准则 ,由 此 知道 目标 函数 为 (17.9): 


N c 
> uaDs(zi, X1) (17.9) 


k—1l i—1 
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由 此 , 可 以 得 到 所 有 视角 的 目标 函数 为 (17.10): 


ë 


> >》 >》 uaDs(zi, X1) = V 7 > ies (xe, Xi) (17.10) 


1-1 k=1 i-i k=1 i=1 
. L 
这 里 , Ds(zx, Xi) = Y^ Ds (ah, X1). 
i=l mE 


^ Ds(zk X!) = lac, — Xil» WAT ASAE, dec vies (17.10) 就 得 到 典型 的 


C-means. 


17.4 多 源 数据 学 习 中 的 基本 假设 


理论 上 , 所 有 的 单 源 机 器 学 习 算 法 都 可 以 有 多 源 数 据 版 ， 如 多 源 判 别 分 析 、 
多 源 非 负 矩 阵 分 解 、 多 源 支持 向 量 机 等 。 目 前 常用 的 多 源 数据 学 习 假 设 有 两 个 。 
一 个 假设 每 个 视角 包含 全 部 的 信息 特征 , 即 所 谓 的 公共 子 空间 假设 , 或 者 视角 信 
息 完 备 假设 。 另 一 个 假设 每 个 视角 包含 对 象 部 分 特征 ,所 有 视角 拼凑 在 一 起 才能 
得 到 整体 特征 ， 即 所 谓 的 视角 信息 互补 假设 。 显 然 , 本 章 在 单 类 多 源 数据 学 习 时 
使 用 的 是 第 一 个 假设 , 讨论 多 源 聚 类 算法 时 使 用 的 是 第 二 个 假设 。 

第 一 个 假设 , 即 视角 信息 完备 假设 , 可 以 在 导出 的 公共 子 空间 上 重新 构 
造 各 类 算法 。 其 数学 表示 如 下 : 归 类 输入 为 V (X!,U!,X!,Dsx1)， 归 类 输出 为 
vl, (Y V, Y. Dsyt)。 由 于 各 个 视角 信息 完备 , 因此 , 每 个 视角 的 类 认 知 表示 应 该 
等 价 , 因此 , 可 以 知道 , 视角 信息 完备 假设 要 求 : Vl, X! = X, VI,Y! Y. 

第 二 个 假设 实际 上 将 多 源 数据 视 作 单 源 数据 来 处 理 , 这 样 的 多 源 数 据 学 习 算 
法 本 质 上 与 单 源 数据 学 习 算 法 等 价 。 数学 表示 如 下 : 归 类 输入 为 V, (X! Ut,X!, 
Dsx:)， 归 类 输出 为 VL, (Yi,Vi, 产 ,Dsyt)。 此 时 ,视角 信息 互补 假设 意味 着 
(XE XP ch KEY SN (VE VA css VE) = Ve 

如 果 多 源 数据 的 对 象 一 致 , 为 了 简单 起 见 , 一 般 还 假设 VI, Ub =U. HR, 如 
果 多 源 数据 的 对 象 不 一 致 , 假设 VI, = U 自然 不 可 能 成 立 。 

但 是 , 不 管 怎样 , 多 源 数据 学 习 依 然 遵 循 类 表示 公理 与 归 类 公理 , 其 设计 也 
遵循 类 一 致 性 准则 , 或 者 类 紧 致 性 准则 , 或 者 类 分 离 性 准则 等 。 








讨 论 
如 果 将 学 习 算法 的 输入 看 做 一 个 数据 源 , 输出 看 做 男 一 个 数据 源 , 则 类 表示 
公理 与 归 类 公理 是 建立 在 将 归 类 算法 看 做 两 个 数据 源 之 间 的 语义 关系 基础 之 上 
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的 ， 即 类 表示 公理 与 归 类 公理 本 来 是 处 理 两 个 数据 源 的 。 这 一 点 在 处 理 典型 关联 
分 析 时 特别 明显 , 是 因为 对 于 典型 关联 分 析 , 其 对 象 的 输入 输出 特性 表示 都 已 知 。 
于 是 ,一 个 非常 自然 的 想法 是 将 对 象 的 输入 特性 表示 看 做 一 个 数据 源 ， 对 象 的 输 
出 特性 表示 看 做 另 一 个 数据 源 。 实 际 上 , 很 多 文献 将 典型 关联 分 析 看 做 是 最 早 发 
现 的 多 源 数 据 学 习 算法 。 

综合 以 上 分 析 , WRX 入 了 ,这样 的 归 类 问题 本 身 可 以 看 做 两 个 数据 源 ， 特 
别 是 在 X 和 并 已 知 的 情况 下 。 因此, 类 表示 公理 与 归 类 公理 处 理 两 个 数据 源 的 学 
习 问 题 时 并 不 需要 进行 特别 的 扩充 。 考 虑 到 多 个 数据 源 都 可 拆 分 成 两 个 数据 源 ， 
可 以 知道 对 于 多 源 数据 并 不 需要 提出 新 的 公理 化 体系 ,只 需 考 虑 多 个 数据 源 自 身 
带 来 的 语义 约束 即 可 。 

本 章 的 部 分 算法 素材 参考 了 徐 畅 、 杨 柳 的 博士 学 位 论文 , 在 此 特 向 两 位 博士 
表示 感谢 ! 








l. 试 将 多 源 归 类 问题 数学 形式 化 。 

2. 试 叙述 类 表示 公理 和 归 类 公理 , 并 讨论 其 对 于 多 源 归 类 问题 的 约束 强度 。 

3. 试 证 明 : 如 果 归 类 输入 (X,U, X, Simx) 与 其 对 应 的 归 类 输出 (Y, V, Y, Simy ) 满足 归 类 
等 价 公理 , WA X =Y AMF X =F. 

4. 试用 类 表示 公理 和 归 类 公理 分 析 K 近邻 分 类 算法 为 什么 会 发 生 分 类 错误 。 

5. 试 构造 一 种 多 源 K 近邻 分 类 算法 。 

6. 在 聚 类 问题 中 , $ X = [r1, £2,- ma] Xi = [vo wa, wie,--- wi]: Dsx(x, Xi) = 
(£ — vi — Š WE (T — w)wis)'(r — vi — > wiL(r-— Vi)Wia)s 其 中 wawis = dap, 
dag = 1 Sia = B, dag = 0, is OT l1gkgenilga€d, 
1<B<d1l<i<ap>d. 如 果 聚 类 的 目标 函数 为 J = BE sepsis X). 其 
"PU = [uik]exn 是 硬 划分 ， 

(1) 试 指出 该 目标 函数 遵循 的 归 类 设计 准则 ; 
(2) 试 推导 出 Xi 的 计算 公式 , 并 由 此 导出 迭代 聚 类 算法 。 
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后 记 


写 一 本 书 , 就 像 设 计 一 座 大 厦 。 如 果 这 座 大 厦 的 结构 和 装饰 已 经 标准 化 , 而 
且 是 在 老 地 基 上 设计 , 一 般 总 会 有 一 些 优秀 的 范本 可 供 参 考 。 完 成 这 样 一 项 工作 ， 
与 其 说 具有 难度 , 不 如 说 更 考验 人 的 耐力 。 但是， 当 设 计 的 大 厦 从 结构 到 装饰 都 
与 众 不 同 ， 甚 至 地 基 都 有 别 于 人 , 对 于 设计 者 的 要 求 就 太 多 了 。 除 了 耐力 之 外 , 创 
新 性 也 常常 超出 预期 。 这 样 的 考验 对 于 专家 来 说 , 可 能 不 算 什么 , 但 对 于 一 个 新 
F, 反复 失败 几乎 必然 , 往往 需要 多 次 的 推倒 重 来 , 还 不 一 定 保证 成 功 。 

本 书 的 写作 过 程 就 是 这 样 的 一 个 历练 。 之 所 以 写作 这 本 书 , 初 心 是 为 了 解决 
自己 在 机 器 学 习 课 程 教学 中 遇 到 的 问题 。 自 2004 年 起 , 笔者 开始 教授 机 器 学 习 。 
虽然 有 许多 优秀 的 机 器 学 习 教 材 , 但 是 ， 由 于 缺少 统一 的 学 习 理论 ， 导致 学 习 算 
法 的 设计 理论 依据 千差万别 , 对 于 学 生 学 习 和 教师 讲授 要 求 过 高 。 注意 到 学 习 的 
目的 是 学 习 知 识 , 因此 ， 从 知识 表示 的 角度 有 望 将 机 器 学 习 统一 起 来 。 按 照 这 一 
思路 , 最 早 计划 写作 一 本 机 器 学 习 的 教材 ,以 便 自己 上 课 使 用 。 经 过 近 十 年 的 思 
考 , 觉得 写作 框架 基本 成 熟 ，2013 年 与 博士 生 李 嘉 多 次 讨论 章节 结构 以 后 ， 就 委 
托 他 和 两 个 硕士 生 从 知识 表示 的 角度 写作 了 本 书 的 初稿 。 可 惜 ， 由 于 当初 笔者 对 
于 知识 表示 与 机 器 学 习 的 关系 研究 尚 浅 , 这 个 版 本 与 期 望 相差 其 远 , 并 没有 达到 
将 机 器 学 习 算 法 统一 的 目的 。 2014 E, 由 于 笔者 对 多 类 归 类 理论 (主要 是 分 类 和 
RK) 初步 成 型 , 在 博士 生 柴 变 芳 的 帮助 下 , 完成 了 本 书 的 第 二 稿 。 遗憾 之 处 是 当 
时 的 归 类 理论 并 不 完善 , 密度 估计 、 回 归 、 数 据 降 维 都 没有 纳入 其 中 , 而 且 纳 入 
其 中 的 章节 , 理论 分 析 也 未 能 水 乳 交 融 。 幸运 的 是 , 笔者 的 机 器 学 习 公 理化 理论 
在 2015 年 基本 完成 。 基于 提出 的 机 器 学 习 公理 化 理论 , 在 博士 生 杨 柳 、 刘 博 、 超 
木 日 力 格 的 帮助 下 , 完成 了 本 书 的 第 三 稿 。 这 已 经 是 2015 年 底 的 事 了 。 整个 2016 
E, 工作 的 焦点 都 在 改写 这 本 书 。 一 句 一 句 地 读 , 一 字 一 字 地 改 , 在 办 公 室 改 , 在 
高 铁 上 改 , 在 机 场 里 改 , 在 家 里 改 , 在 桌子 上 改 , 在 椅子 上 改 , 在 床上 改 , 如 同 在 
生铁 鳌 子 上 烙 大 饼 , 颠 来 覆 去 ， 既 怕 夹 生 ， 又 恐 烙 糊 。 不 知 不 觉 之 间 ,， 这 本 书 已 经 
历时 五 载 , 四 易 其 稿 了 , 如 同一 个 即将 毕业 的 学 生 , 希望 有 一 个 光明 的 未 来 。 
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在 本 书 中 , 所 有 的 学 习 算法 都 是 从 所 提出 的 机 器 学 习 公理 化 理论 导出 的 。 为 
了 实现 这 一 点 , 笔者 根据 类 表示 理论 重新 表述 了 所 有 在 本 书 中 出 现 的 学 习 算法 。 
这 是 一 个 痛苦 而 又 快乐 的 旅程 , 也 是 一 种 孤独 而 又 漫长 的 修行 。 在 本 书 中 每 个 算 
法 的 表述 几乎 都 要 自 铸 新 词 , 没有 模板 可 以 借鉴 ,犹如 一 个 人 走 在 无 人 而 又 长 满 
野草 的 巨大 荒原 。 有 时 会 迷失 方向 ， 多 次 在 一 个 地 方 打 疾 ,， 难免 灰心 有 时 会 感 
JR, 各 种 美景 目不暇接 , 时 常 惊喜 。 在 本 书 的 写作 过 程 中 , 相关 的 研究 成 果 既 曾 多 
次 投稿 于 国际 会 议和 期 刊 ,各 种 各 样 的 拒 稿 ， 说 不 迷茫 不 失望 是 骗 人 的 ; 也 曾 先 
后 接 到 12 个 国内 外 学 术 会 议 做 大 会 报告 与 17 个 海内 外 大 学 和 科研 机 构 做 学 术 报 
告 的 邀请 , 朋友 们 源源 不 断 的 鼓励 和 激励 是 本 书 最 终 得 以 完成 的 最 重要 推手 , 为 
Jb, 感激 之 情 始 终 蒙 绕 于 心 , 终身 难忘 。 需要 指出 的 是 , 本 书 的 缘起 是 与 徐 宗 本 院 
士 合作 的 聚 类 公理 化 研究 , 他 指出 研究 成 果 更 适合 于 出 书 。 在 本 书 杀青 之 时 ，, 再 
次 感谢 徐 宗 本 院士 的 真知 灼 见 。 

理论 上 , 所 有 的 机 器 学 习 算 法 都 遵从 归 类 公理 和 类 表示 存在 公理 , 在 理想 状 
态 下 遵从 类 表示 唯一 公理 。 但 是 , 将 所 有 的 机 器 学 习 算 法 在 本 书 提出 的 机 器 学 习 
公理 体系 下 重新 论述 一 遍 ， 这 一 任务 本 书 并 没有 完成 。 原因 有 两 个 : 一 是 从 基础 
学 科 到 应 用 技术 , 机 器 学 习 应 用 领域 日 渐 扩大 , 各 种 学 习 任 务 层出不穷 , 新 机 器 
学 习 算法 不 断 涌现 。 如 果 想 完成 对 所 有 的 机 器 学 习 算 法 的 重新 论述 ， 则 本 书 完成 
EH. ZÆ, 限于 精力 和 能 力 , 作者 本 身 并 没有 深入 研究 所 有 学 习 范式 , 这 是 有 些 
重要 的 机 器 学 习 范 式 如 强化 学 习 、 集 成 学 习 和 排序 学 习 等 未 能 在 本 书 中 进行 论述 
的 最 主要 原因 。 这 些 工作 只 能 有 待 于 来 日 了 。 

本 书 得 以 列 入 “中 国 计 算 机 学 会 学 术 著 作 从 书 ” 在 清华 大 学 出 版 社 出 版 
要 归功 于 陆 汝 铃 院 士 的 邀请 和 薛 慧 编辑 的 帮助 ， 没 有 他 们 ， 这 本 书 的 完成 时 间 
可 能 会 大 大 延 后 。 本 书 的 写作 还 得 到 了 国家 自然 科学 基金 面 上 项 目 (项 目 批准 
^j: 61370129)、 重 点 项 目 (项 目 批准 号 : 61632004) 和 工作 单位 北京 交通 大 学 的 
支持 , 在 此 一 并 表示 感谢 。 最 后 要 特别 感谢 我 所 有 的 学 生 、 朋友、 同事 和 家 人 , 他 
们 的 支持 是 本 书写 作 的 动力 。 在 本 书 从 酝酿 到 完稿 的 过 程 中 , 他 们 提供 了 各 种 各 
样 的 帮助 。 这 里 , 列 出 部 分 名 单 谨 致 谢意 : 高 新 波 , 张 文 生 , 胡 包 钢 ， 张 讲 社 , 封 
举 富 , 马 少 平 , 何 清 ， 胡 学 钢 , 谢 娟 英 , REL EA 杨 健 , 高 阳 , HW, MTR, 
ipu. 尹 义 龙 , 杨 博 , 陈小平 , 马 尽 文 , 陈 迎 庆 , AR, 李 凡 长 , 文 益 民 , 赵 兴 明 ， 
高 敬 阳 ， 李 进 , 杨 敏 生 , 温 蛤 秋子 , 李 肯 立 , HER, 周 雪 忠 , 景 丽 萍 , 黄 厚 宽 ， 以 
及 各 位 中 国人 工 智能 学 会 机 器 学 习 专 委 会 常务 委员 等 。 

如 果 本 书 能 够 在 学 术 上 有 所 贡献 , 这 份 成 功 属于 所 有 以 各 种 方式 支持 过 我 的 
人 。 当然, 本 书 所 有 的 错误 只 能 归于 作者 , 并 完全 由 作者 自己 负责 , 与 他 人 无 关 。 
这 里 , 作者 期 待 热心 的 读者 帮忙 指出 本 书 的 各 种 错误 , 同时 帮助 作者 弥补 本 书 的 
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诸多 缺憾 。 比 如 ,本 书 原 计 划 每 章 配 一 个 开篇 词 , MEE IRRE BUR 
一 章 还 缺少 合适 的 开篇 词 。 希望 本 书 的 下 一 个 版 本 能 够 更 加 完善 。 
以 此 纪念 为 了 写作 本 书 而 已 经 远 去 的 清瘦 和 头发 。 


于 剑 

写 于 交通 数据 分 析 与 挖掘 北京 市 重点 实验 室 
jianyu@bjtu.edu.cn 

2017 年 5 月 
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